
摘要
我们研究的是监督式动作分割任务,其目标是预测视频中每一帧的动作标签。现有方法为了捕捉长时程的时序依赖关系,通常通过Transformer增强帧级特征,或利用学习到的动作特征来优化帧级预测。然而,这些方法计算开销较大,且忽略了帧特征与动作特征之间蕴含的互补信息——这些信息若能被有效利用,将有助于提升两类特征的质量并改进时序建模能力。为此,我们提出一种高效且新颖的帧-动作交叉注意力时序建模框架(Frame-Action Cross-attention Temporal modeling, FACT)。该框架并行地利用帧特征与动作特征进行时序建模,并通过这种并行结构实现特征间的迭代式双向信息传递,从而持续优化两类特征。FACT网络包含三个核心组件:(i)帧分支,通过卷积操作学习帧级特征;(ii)动作分支,借助Transformer建模动作级别的依赖关系,并引入动作标记(action tokens);(iii)交叉注意力机制,实现两分支之间的信息交互与通信。此外,我们设计了一种新的匹配损失函数,确保每个动作标记能够唯一地编码一个动作片段,从而更准确地捕捉其语义信息。得益于该架构设计,FACT还可有效利用视频的文本转录内容辅助动作分割任务。我们在四个视频数据集(包括两个第一人称视角和两个第三人称视角)上对FACT进行了评估,涵盖有无文本转录的两种场景。实验结果表明,FACT在显著提升当前最先进方法的分割准确率的同时,其计算效率更高——相比现有的基于Transformer的方法,推理速度提升了约3倍,展现出卓越的性能与效率平衡。