17 天前
时空混合注意力机制用于视频Transformer
Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudhakaran, Brais Martinez, Georgios Tzimiropoulos

摘要
本文研究基于Transformer的视频识别方法。近期相关工作在识别准确率方面已展现出令人鼓舞的成果,但普遍存在一个显著问题:由于对时序信息进行额外建模,导致计算开销显著增加。针对这一挑战,本文提出一种新型视频Transformer模型,其计算复杂度与视频帧数呈线性关系,因此在计算效率上与基于图像的Transformer模型相比不产生额外开销。为实现这一目标,我们的模型对视频Transformer中使用的完整时空注意力机制进行了两项关键近似:(a)将时间注意力限制在局部时间窗口内,并利用Transformer模型的深度结构实现对整个视频序列的完整时序覆盖;(b)引入高效的时空混合机制,在不增加额外计算成本的前提下,实现对空间与时间位置的联合注意力建模。此外,我们还展示了如何集成两种极为轻量级的全局仅时间注意力机制,能够在几乎不增加计算负担的情况下进一步提升模型精度。实验结果表明,我们的模型在主流视频识别数据集上均取得了极高的识别准确率,同时在计算效率方面显著优于现有的其他视频Transformer模型。相关代码将公开发布。