8日前

VALOR:ビジュアル・オーディオ・言語統合感知事前学習モデルおよびデータセット

Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang
VALOR:ビジュアル・オーディオ・言語統合感知事前学習モデルおよびデータセット
要約

本稿では、多モーダル理解および生成を目的とした視覚・音声・言語統合的自己教師学習モデル「VALOR(Vision-Audio-Language Omni-peRception pretraining model)」を提案する。既存の広く研究されている視覚-言語自己教師学習モデルとは異なり、VALORは視覚、音声、言語の関係性をエンド・トゥ・エンドの形で統合的にモデル化する。本モデルは単一モーダル表現を処理する3つの独立したエンコーダと、多モーダル条件付きテキスト生成を行うデコーダから構成される。VALORの自己教師学習を実現するために、2つの事前学習タスクを設計した。一つは「多モーダルグループ化アライメント(Multimodal Grouping Alignment: MGA)」であり、視覚、言語、音声を同一の共通空間に射影することで、視覚-言語、音声-言語、音声視覚-言語の同時アライメントを構築する。もう一つは「多モーダルグループ化キャプション生成(Multimodal Grouping Captioning: MGC)」であり、視覚、音声、あるいは両者の条件のもとでテキストトークンを生成する能力を学習する。視覚-音声-言語自己教師学習の研究を促進するために、人間による音声視覚キャプションが付与された100万件の音声付き動画を含む大規模・高品質な三モーダルデータセット「VALOR-1M」を構築した。広範な実験により、VALORが強力な多モーダル相関を学習でき、視覚-言語、音声-言語、音声視覚-言語といった異なる入力モーダルを前提とした多様な下流タスク(例:リトリーブ、キャプション生成、質問応答)に一般化可能であることが示された。さらに、複数の公開クロスモーダルベンチマークにおいて、VALORは新たな最先端性能を達成した。コードおよびデータはプロジェクトページ(https://casia-iva-group.github.io/projects/VALOR)にて公開されている。