使用视频与图像联合训练Transformer提升动作识别性能

在动作识别任务中,模型通常先在图像分类数据集(如 ImageNet)上进行预训练,随后在目标动作识别任务的视频数据上进行微调。这一方法在近年来基于 Transformer 的视频架构中取得了良好的实证效果。尽管当前已有大量研究致力于设计更先进的 Transformer 架构以提升动作识别性能,但针对视频 Transformer 如何有效训练的研究仍相对不足。本文系统探索了多种训练范式,并得出两个关键发现:首先,视频 Transformer 在多种视频数据集及标签空间(如 Kinetics 侧重外观特征,SomethingSomething 侧重运动特征)上进行联合训练时,性能显著提升;其次,通过进一步与图像(作为单帧视频)进行协同训练,视频 Transformer 能够学习到更优的视频表征。我们称此方法为“动作识别中的视频与图像协同训练”(Co-training Videos and Images for Action Recognition, CoVeR)。具体而言,在基于 TimeSFormer 架构并在 ImageNet-21K 上预训练的情况下,CoVeR 将 Kinetics-400 的 Top-1 准确率提升 2.4%,Kinetics-600 提升 2.3%,SomethingSomething-v2 提升 2.3%。当在更大规模图像数据集上预训练以延续先前最先进方法时,CoVeR 在 Kinetics-400(87.2%)、Kinetics-600(87.9%)、Kinetics-700(79.8%)、SomethingSomething-v2(70.9%)和 Moments-in-Time(46.1%)上均取得了当前最优结果,且仅采用一个简单的时空视频 Transformer 架构。