HyperAIHyperAI

Command Palette

Search for a command to run...

ViViT:ビデオビジョントランスフォーマー

Anurag Arnab Mostafa Dehghani Georg Heigold Chen Sun Mario Lučić Cordelia Schmid

概要

動画分類のための純粋なTransformerベースのモデルを提示する。本モデルは、画像分類における近年のTransformerモデルの成功に着想を得ている。我々のモデルは入力動画から空間時間的トークンを抽出し、それらを複数のTransformer層で符号化する。動画処理においては、長大なトークン系列が生じるため、空間的および時間的次元を因子分解する効率的なモデル変種を複数提案する。Transformerベースのモデルは、大規模な学習データセットが存在する場合にのみ有効であると知られているが、本研究では、訓練中に効果的な正則化手法を用いることで、比較的小規模なデータセットでも高精度な学習が可能となることを示す。また、事前学習済みの画像モデルを活用することで、データ量の制限を克服する手法を提示する。徹底的なアブレーションスタディを実施し、Kinetics 400および600、Epic Kitchens、Something-Something v2、Moments in Timeといった複数の動画分類ベンチマークにおいて、従来の深層3D畳み込みネットワークに基づく手法を上回る最先端の性能を達成した。今後の研究を促進するため、コードを https://github.com/google-research/scenic/tree/main/scenic/projects/vivit にて公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ViViT:ビデオビジョントランスフォーマー | 記事 | HyperAI超神経