7日前
mPLUG-2:テキスト、画像、動画を横断するモジュール化されたマルチモーダル基礎モデル
Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu, Chenliang Li, Bin Bi, Qi Qian, Wei Wang, Guohai Xu, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou

要約
近年、言語、視覚、マルチモーダル事前学習の分野において大きな統合が進んできた。本研究では、モジュール化された設計を採用した新たな統一的枠組み「mPLUG-2」を提案する。このアーキテクチャは、モダリティ間の協調を活用しつつ、モダリティの混同(modality entanglement)という課題にも対応できる。従来の主流であるシーケンス・トゥ・シーケンス生成やエンコーダベースのインスタンス識別に依拠する手法とは異なり、mPLUG-2は共通の汎用モジュールを共有することでモダリティ協調を実現し、異なるモダリティ用のモジュールを分離することでモダリティの混同を解消する、マルチモジュール構成ネットワークを導入している。テキスト、画像、動画を含むすべてのモダリティにおいて、理解および生成タスクに応じて柔軟に異なるモジュールを選択可能である。実証的な評価により、mPLUG-2は30以上の下流タスクにおいて最先端(SOTA)または競争力のある性能を達成した。これらのタスクは、画像-テキストおよび動画-テキストの理解・生成を含むマルチモーダルタスク、およびテキストのみ、画像のみ、動画のみの単一モーダルタスクをカバーしている。特に、MSRVTT動画QAおよび動画キャプションタスクにおいて、モデルサイズとデータ規模がはるかに小さいにもかかわらず、トップ1精度48.0、CIDErスコア80.3という新たな最先端性能を達成した。また、視覚言語および動画言語タスクにおいても優れたゼロショット転移性能を示した。コードおよびモデルは、https://github.com/alibaba/AliceMind にて公開される予定である。