HyperAIHyperAI

Command Palette

Search for a command to run...

ViViT:一种视频视觉Transformer

Anurag Arnab Mostafa Dehghani Georg Heigold Chen Sun Mario Lučić Cordelia Schmid

摘要

我们提出了一种基于纯Transformer架构的视频分类模型,其设计灵感源自该类模型在图像分类任务中取得的显著成功。我们的模型首先从输入视频中提取时空特征令牌(spatio-temporal tokens),随后通过一系列Transformer层对其进行编码。为应对视频数据中常见的长序列令牌处理挑战,我们提出了若干高效变体模型,通过分解输入的时空维度来降低计算复杂度。尽管基于Transformer的模型通常依赖大规模训练数据才能发挥最佳性能,但我们展示了如何在训练过程中有效进行正则化,并借助预训练的图像模型,使模型能够在相对较小的数据集上实现高效训练。我们开展了详尽的消融实验,并在多个视频分类基准测试中取得了当前最优的性能表现,涵盖Kinetics 400与Kinetics 600、Epic Kitchens、Something-Something v2以及Moments in Time等数据集,显著优于以往基于深度3D卷积网络的方法。为促进后续研究,我们已将代码开源,地址为:https://github.com/google-research/scenic/tree/main/scenic/projects/vivit


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供