HyperAIHyperAI

Command Palette

Search for a command to run...

マスク解除教師:学習効率の高いビデオ基礎モデルへの道程

Kunchang Li Yali Wang Yizhuo Li Yi Wang Yinan He Limin Wang Yu Qiao

概要

ビデオ基礎モデル(VFMs)は、高い計算コストとデータの不足により、その研究が限られてきました。従来のVFMは画像基礎モデル(IFMs)に依存しており、ビデオ領域への転移に課題を抱えています。VideoMAEは限られたデータから堅牢なViTを学習しましたが、低レベルの再構成が収束の困難さを引き起こし、高レベルのクロスモーダルアライメントと対立しています。本論文では、時間感度のあるVFMの効率的な学習方法を提案します。この方法では、低セマンティクスのビデオトークンの大半をマスク処理し、選択的に未マスクトークンをIFM(UnMasked Teacher: UMT)と合わせることでデータ効率を向上させます。セマンティックガイダンスを提供することで、当手法はより速い収束とマルチモーダル対応性を実現します。段階的な事前学習フレームワークを使用することで、当モデルはシーン関連タスク、時間関連タスク、複雑なビデオ言語理解など様々なタスクに対応できます。公開ソースのみを使用し、32台のA100 GPUで6日間の事前学習により、ゼロから構築したViT-L/16が様々なビデオタスクにおいて最先端の性能を達成しました。コードとモデルは以下のURLで公開されます:https://github.com/OpenGVLab/unmasked_teacher


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています