18 天前

VidTr：无卷积的视频Transformer

Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe

摘要

我们提出了一种基于分离注意力机制的视频变换器（Video Transformer，简称 VidTr），用于视频分类任务。与常用的3D卷积网络相比，VidTr 通过堆叠的注意力机制有效聚合时空信息，在保持更高性能的同时展现出更强的计算效率。首先，我们介绍了原始的视频变换器模型，并验证了变换器模块能够直接从原始像素中实现时空建模，但其内存开销较大。随后，我们提出 VidTr 模型，在维持相同性能的前提下，将内存消耗降低了 3.3 倍。为进一步优化模型，我们引入了一种基于标准差的 topK 注意力池化方法（$pool_{topK_std}$），通过在时间维度上剔除冗余信息特征，显著降低计算量。在五个常用视频数据集上，VidTr 均取得了当前最优的性能表现，且所需的计算资源更低，充分验证了所提设计在效率与有效性方面的优势。最后，通过误差分析与可视化结果表明，VidTr 在需要长期时序推理的动作预测任务中表现尤为出色。