2ヶ月前

VAST: 視覚・音声・字幕・テキストのオミニモダリティ基盤モデルおよびデータセット

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu
VAST: 視覚・音声・字幕・テキストのオミニモダリティ基盤モデルおよびデータセット
要約

現代のビデオテキスト基盤モデルでは、視覚とテキストが十分に研究されていますが、ビデオ内の音声や字幕などの他のモダリティには十分な注意が払われていません。本論文では、大規模な自動生成オムニモダリティビデオキャプションデータセットであるVAST-27Mを活用し、視覚、音声、字幕(サブタイトル)とテキストの間の多様な接続を確立することを目指します。具体的には、まず2700万件のオープンドメインのビデオクリップを集め、視覚キャプション生成器と音声キャプション生成器を別々に訓練して視覚キャプションと音声キャプションを生成します。その後、市販の大規模言語モデル(Large Language Model: LLM)を使用して、生成されたキャプションと字幕および指示プロンプトを統合し、オムニモダリティキャプションを作成します。提案されたVAST-27Mデータセットに基づいて、視覚、音声、字幕モダリティから情報を感知・処理できるオムニモダリティビデオテキスト基盤モデルであるVASTを開発しました。このモデルは視覚-テキスト、音声-テキスト、および多様なビデオ-テキストタスク(検索、キャプショニング、QA)をより効果的にサポートします。広範囲にわたる実験を通じて、提案したVAST-27MコーパスとVAST基盤モデルの有効性が示されました。VASTは様々なクロスモダリティベンチマークで22件の新しい最先端結果を達成しています。コード、モデルおよびデータセットはhttps://github.com/TXH-mercury/VASTで公開されます。

VAST: 視覚・音声・字幕・テキストのオミニモダリティ基盤モデルおよびデータセット | 最新論文 | HyperAI超神経