17日前

ViViT：ビデオビジョントランスフォーマー

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid

要約

動画分類のための純粋なTransformerベースのモデルを提示する。本モデルは、画像分類における近年のTransformerモデルの成功に着想を得ている。我々のモデルは入力動画から空間時間的トークンを抽出し、それらを複数のTransformer層で符号化する。動画処理においては、長大なトークン系列が生じるため、空間的および時間的次元を因子分解する効率的なモデル変種を複数提案する。Transformerベースのモデルは、大規模な学習データセットが存在する場合にのみ有効であると知られているが、本研究では、訓練中に効果的な正則化手法を用いることで、比較的小規模なデータセットでも高精度な学習が可能となることを示す。また、事前学習済みの画像モデルを活用することで、データ量の制限を克服する手法を提示する。徹底的なアブレーションスタディを実施し、Kinetics 400および600、Epic Kitchens、Something-Something v2、Moments in Timeといった複数の動画分類ベンチマークにおいて、従来の深層3D畳み込みネットワークに基づく手法を上回る最先端の性能を達成した。今後の研究を促進するため、コードを https://github.com/google-research/scenic/tree/main/scenic/projects/vivit にて公開する。