2ヶ月前

マスク解除教師：学習効率の高いビデオ基礎モデルへの道程

Kunchang Li; Yali Wang; Yizhuo Li; Yi Wang; Yinan He; Limin Wang; Yu Qiao

要約

ビデオ基礎モデル（VFMs）は、高い計算コストとデータの不足により、その研究が限られてきました。従来のVFMは画像基礎モデル（IFMs）に依存しており、ビデオ領域への転移に課題を抱えています。VideoMAEは限られたデータから堅牢なViTを学習しましたが、低レベルの再構成が収束の困難さを引き起こし、高レベルのクロスモーダルアライメントと対立しています。本論文では、時間感度のあるVFMの効率的な学習方法を提案します。この方法では、低セマンティクスのビデオトークンの大半をマスク処理し、選択的に未マスクトークンをIFM（UnMasked Teacher: UMT）と合わせることでデータ効率を向上させます。セマンティックガイダンスを提供することで、当手法はより速い収束とマルチモーダル対応性を実現します。段階的な事前学習フレームワークを使用することで、当モデルはシーン関連タスク、時間関連タスク、複雑なビデオ言語理解など様々なタスクに対応できます。公開ソースのみを使用し、32台のA100 GPUで6日間の事前学習により、ゼロから構築したViT-L/16が様々なビデオタスクにおいて最先端の性能を達成しました。コードとモデルは以下のURLで公開されます：https://github.com/OpenGVLab/unmasked_teacher。