LanguageBind: 言語ベースの意味合わせによるNモダリティへのビデオ-言語事前学習の拡張

ビデオ言語(VL)事前学習は、複数の下流タスクにおいて著しい改善を達成しています。しかし、現行のVL事前学習フレームワークは、視覚と言語以外の複数のモダリティ(Nモダリティ、N≧3)への拡張が困難です。そこで、言語を異なるモダリティ間の結合点として利用するLanguageBindを提案します。これは言語モダリティが十分に研究されており、豊富な意味論的情報を含んでいるためです。具体的には、VL事前学習で獲得した言語エンコーダーを固定し、他のモダリティ用のエンコーダーを対照学習によって訓練します。その結果、すべてのモダリティが共有特徴空間にマッピングされ、多様なモダリティ間での意味論的整合性が実現されます。LanguageBindによりVLモダリティをNモダリティへと拡張できる一方で、言語を中心に据えた高品質なデータセットが必要となります。そこで、ビデオ、赤外線、深度、音声およびそれらに対応する言語データから構成されるVIDAL-10Mを提案します。このデータセットはVIDAL-10Mと命名されました。VIDAL-10Mでは、すべてのビデオは完全な意味論的情報を持つ短編動画プラットフォームからのものであり、長編動画からの断片的なセグメントではありません。また、すべてのビデオ、深度、赤外線、音声モダリティがテキスト記述と整合性を持っています。LanguageBindは15種類に及ぶベンチマークにおいて優れた性能を示しており、これらのベンチマークはビデオ、音声、深度および赤外線をカバーしています。さらに複数の実験により、LanguageBindが異なるモダリティ間での間接的な整合性や相補性を達成する効果について証明されています。コードアドレス: https://github.com/PKU-YuanGroup/LanguageBind