HyperAIHyperAI

Command Palette

Search for a command to run...

VideoMAE V2: デュアルマスキングを用いたビデオマスクオートエンコーダーのスケーリング

Wang Limin ; Huang Bingkun ; Zhao Zhiyu ; Tong Zhan ; He Yinan ; Wang Yi ; Wang Yali ; Qiao Yu

概要

スケールは、多様な下流タスクに適応可能な強力な基盤モデルを構築する主要な要因です。しかし、数十億のパラメータを持つビデオ基盤モデルの学習は依然として困難です。本論文では、ビデオマスクオートエンコーダー(VideoMAE)がスケーラブルで汎用的な自己監督型事前学習器であることを示し、これによりビデオ基盤モデルを構築することが可能となります。具体的には、効率的な事前学習のために双方向マスキング戦略を提案します。この戦略では、エンコーダーがビデオトークンのサブセット上で動作し、デコーダーが別のサブセット上で処理を行います。エンコーダーでの高いマスキング率によりVideoMAEは非常に効率的ですが、マスキングデコーダーを使用することで全体的な計算コストをさらに削減できます。これにより、ビデオにおける数十億レベルのモデルの効率的な事前学習が可能となります。また、進行形の学習パラダイムを使用しています。これは、多様な複数ソースからの未ラベルデータセットでの初期事前学習と、その後の混合ラベルデータセットでの後期事前学習から構成されます。最終的に、私たちは10億パラメータを持つビデオViTモデルを成功裏に訓練し、Kinetics(K400で90.0%、K600で89.9%)およびSomething-Something(V1で68.7%、V2で77.0%)データセットにおいて新たな最先端性能を達成しました。さらに、様々な下流タスクにおいて事前学習されたビデオViTモデルの有効性を広範に検証し、その一般化されたビデオ表現学習器としての能力を示しています。コードとモデルは \url{https://github.com/OpenGVLab/VideoMAEv2} で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています