17 天前

ViViT：一种视频视觉Transformer

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid

摘要

我们提出了一种基于纯Transformer架构的视频分类模型，其设计灵感源自该类模型在图像分类任务中取得的显著成功。我们的模型首先从输入视频中提取时空特征令牌（spatio-temporal tokens），随后通过一系列Transformer层对其进行编码。为应对视频数据中常见的长序列令牌处理挑战，我们提出了若干高效变体模型，通过分解输入的时空维度来降低计算复杂度。尽管基于Transformer的模型通常依赖大规模训练数据才能发挥最佳性能，但我们展示了如何在训练过程中有效进行正则化，并借助预训练的图像模型，使模型能够在相对较小的数据集上实现高效训练。我们开展了详尽的消融实验，并在多个视频分类基准测试中取得了当前最优的性能表现，涵盖Kinetics 400与Kinetics 600、Epic Kitchens、Something-Something v2以及Moments in Time等数据集，显著优于以往基于深度3D卷积网络的方法。为促进后续研究，我们已将代码开源，地址为：https://github.com/google-research/scenic/tree/main/scenic/projects/vivit。