2ヶ月前
VideoMAE V2: デュアルマスキングを用いたビデオマスクオートエンコーダーのスケーリング
Wang, Limin ; Huang, Bingkun ; Zhao, Zhiyu ; Tong, Zhan ; He, Yinan ; Wang, Yi ; Wang, Yali ; Qiao, Yu

要約
スケールは、多様な下流タスクに適応可能な強力な基盤モデルを構築する主要な要因です。しかし、数十億のパラメータを持つビデオ基盤モデルの学習は依然として困難です。本論文では、ビデオマスクオートエンコーダー(VideoMAE)がスケーラブルで汎用的な自己監督型事前学習器であることを示し、これによりビデオ基盤モデルを構築することが可能となります。具体的には、効率的な事前学習のために双方向マスキング戦略を提案します。この戦略では、エンコーダーがビデオトークンのサブセット上で動作し、デコーダーが別のサブセット上で処理を行います。エンコーダーでの高いマスキング率によりVideoMAEは非常に効率的ですが、マスキングデコーダーを使用することで全体的な計算コストをさらに削減できます。これにより、ビデオにおける数十億レベルのモデルの効率的な事前学習が可能となります。また、進行形の学習パラダイムを使用しています。これは、多様な複数ソースからの未ラベルデータセットでの初期事前学習と、その後の混合ラベルデータセットでの後期事前学習から構成されます。最終的に、私たちは10億パラメータを持つビデオViTモデルを成功裏に訓練し、Kinetics(K400で90.0%、K600で89.9%)およびSomething-Something(V1で68.7%、V2で77.0%)データセットにおいて新たな最先端性能を達成しました。さらに、様々な下流タスクにおいて事前学習されたビデオViTモデルの有効性を広範に検証し、その一般化されたビデオ表現学習器としての能力を示しています。コードとモデルは \url{https://github.com/OpenGVLab/VideoMAEv2} で公開されています。