17 天前

ViViT:一种视频视觉Transformer

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid
ViViT:一种视频视觉Transformer
摘要

我们提出了一种基于纯Transformer架构的视频分类模型,其设计灵感源自该类模型在图像分类任务中取得的显著成功。我们的模型首先从输入视频中提取时空特征令牌(spatio-temporal tokens),随后通过一系列Transformer层对其进行编码。为应对视频数据中常见的长序列令牌处理挑战,我们提出了若干高效变体模型,通过分解输入的时空维度来降低计算复杂度。尽管基于Transformer的模型通常依赖大规模训练数据才能发挥最佳性能,但我们展示了如何在训练过程中有效进行正则化,并借助预训练的图像模型,使模型能够在相对较小的数据集上实现高效训练。我们开展了详尽的消融实验,并在多个视频分类基准测试中取得了当前最优的性能表现,涵盖Kinetics 400与Kinetics 600、Epic Kitchens、Something-Something v2以及Moments in Time等数据集,显著优于以往基于深度3D卷积网络的方法。为促进后续研究,我们已将代码开源,地址为:https://github.com/google-research/scenic/tree/main/scenic/projects/vivit。