17 天前
紧盯目标:视频Transformer中的轨迹注意力
Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra, Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, João F. Henriques

摘要
在视频Transformer模型中,时间维度通常被与两个空间维度同等处理。然而,在物体或摄像机可能发生运动的场景中,某一帧 $t$ 中图像上某一点所对应的物理点,可能与帧 $t+k$ 中同一位置的内容毫无关联。为了更好地理解动态场景,必须对这种时序对应关系进行建模。为此,我们提出了一种新型的即插即用模块——轨迹注意力(trajectory attention),该模块能够沿着隐式确定的运动轨迹聚合信息。此外,我们还提出了一种新方法,有效缓解了计算和内存开销随输入规模呈二次增长的问题,这对高分辨率视频或长时视频尤为重要。尽管这些方法在多种场景下均具实用性,我们将其应用于基于Transformer的视频动作识别任务,并在Kinetics、Something-Something V2以及Epic-Kitchens数据集上取得了当前最优的性能表现。相关代码与模型已开源,地址为:https://github.com/facebookresearch/Motionformer。