11 天前

BIT:用于高效监督动作分割的双层时间建模

Zijia Lu, Ehsan Elhamifar
BIT:用于高效监督动作分割的双层时间建模
摘要

我们针对监督式动作分割任务展开研究,该任务旨在将视频划分为互不重叠的片段,每个片段对应一种不同的动作。近年来,已有研究尝试采用Transformer模型在帧级别进行时序建模,但这类方法存在计算开销高、难以有效捕捉长时程动作依赖关系的问题。为解决上述挑战,本文提出一种高效的双层次时序建模框架(BI-level Temporal modeling, BIT),通过学习显式的动作令牌(action tokens)来表征动作片段,同时在帧级与动作级并行执行时序建模,从而在保持低计算成本的前提下实现高效建模。我们的模型包含三个核心组件:(i)帧分支(frame branch),利用卷积网络学习帧级别的局部关系;(ii)动作分支(action branch),基于Transformer架构,通过少量动作令牌建模动作级别的长程依赖关系;(iii)跨注意力机制(cross-attention),实现帧分支与动作分支之间的信息交互与协同优化。我们引入并扩展了一种集合预测(set-prediction)目标函数,使每个动作令牌能够对应一个或多个动作片段,从而避免在包含大量片段的长视频中需学习大量令牌所带来的冗余问题。得益于动作分支的精心设计,当视频配有文本转录(transcripts)时,我们可无缝地利用这些文本信息,通过将文本内容用于初始化动作令牌,进一步提升动作分割的性能。我们在四个视频数据集上进行了实验评估(包含两个第一人称视角和两个第三人称视角数据集),在有无文本转录的条件下均验证了模型的有效性。实验结果表明,与现有基于Transformer的方法相比,BIT在显著降低计算成本(提速约30倍)的同时,大幅提升了当前最优的分割准确率,充分证明了其高效性与优越性。

BIT:用于高效监督动作分割的双层时间建模 | 最新论文 | HyperAI超神经