摘要

本文研究了视频Transformer模型的BERT预训练方法。鉴于图像Transformer模型在BERT预训练方面取得的近期成功，这一扩展虽然直接，却具有重要的研究价值。为此，本文提出BEVT（Bidirectional Video Transformer），该方法将视频表征学习解耦为空间表征学习与时间动态学习两个阶段。具体而言，BEVT首先在图像数据上执行掩码图像建模（Masked Image Modeling），随后在视频数据上联合进行掩码图像建模与掩码视频建模。这一设计基于两点观察：其一，基于图像数据训练的Transformer能够提供良好的空间先验信息，有助于缓解视频Transformer从零开始训练时所面临的高计算成本问题；其二，不同视频之间存在较大的类内与类间差异，因此在进行正确预测时所需的判别性线索（即空间与时间信息）各不相同。我们在三个具有挑战性的视频基准数据集上进行了大量实验，结果表明BEVT取得了非常有前景的性能表现。在Kinetics-400数据集上，由于动作识别主要依赖于判别性空间表征，BEVT的表现与强监督基线相当；而在Something-Something-V2和Diving 48两个以时间动态为核心特征的数据集上，BEVT显著优于所有对比基线，分别取得了71.4%和87.2%的Top-1准确率，达到当前最优水平。代码将公开于 \url{https://github.com/xyzforever/BEVT}。

源 PDF