17 天前
基于时间块移位的时空自注意力建模用于动作识别
Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Xian-Sheng Hua, Lei Zhang

摘要
基于Transformer的方法在二维图像视觉任务中取得了显著进展。然而,在三维视频任务(如动作识别)中,直接将时空Transformer应用于视频数据会因patch数量大幅增加以及自注意力计算的二次复杂度,带来沉重的计算与内存负担。如何高效且有效地建模视频数据的三维自注意力,成为Transformer在该领域面临的一大挑战。本文提出一种名为时间块移位(Temporal Patch Shift, TPS)的方法,用于在基于视频的动作识别任务中实现高效的三维自注意力建模。TPS在时间维度上以特定的马赛克模式对部分patch进行移位,从而在几乎不增加额外开销的情况下,将原始的空间自注意力操作扩展为时空自注意力操作。由此,我们能够在接近二维自注意力的计算与内存消耗水平下,完成三维自注意力的计算。TPS是一种即插即用的模块,可无缝集成至现有的二维Transformer模型中,以增强模型的时空特征学习能力。所提方法在Something-Something V1 & V2、Diving-48和Kinetics400等多个基准数据集上取得了与当前最先进方法相媲美的性能,同时在计算效率和内存占用方面具有显著优势。TPS的源代码已公开,可访问 https://github.com/MartinXM/TPS。