11日前

mPLUG-Owl2:モダリティ協働によるマルチモーダル大規模言語モデルの革新

Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl2:モダリティ協働によるマルチモーダル大規模言語モデルの革新
要約

マルチモーダル大規模言語モデル(MLLM)は、さまざまなオープンエンドタスクにおいて印象的な指示処理能力を示している。しかし、これまでの手法は主にマルチモーダル能力の向上に注力してきた。本研究では、テキストおよびマルチモーダルタスクの両方において、モダリティ間の協調を効果的に活用することで性能を向上させる、汎用性の高いマルチモーダル大規模言語モデル「mPLUG-Owl2」を提案する。mPLUG-Owl2はモジュール化されたネットワーク構造を採用しており、言語デコーダーが異なるモダリティを統合的に管理するユニバーサルインターフェースとして機能する。具体的には、モダリティ間の協調を促進する共有機能モジュールを導入するとともに、モダリティ固有の特徴を保持するモダリティ適応型モジュールを新たに設計している。広範な実験結果から、mPLUG-Owl2が単一の汎用モデルとしてテキストタスクおよびマルチモーダルタスクの両方において一般化能力を発揮し、最先端の性能を達成できることを確認した。特に、mPLUG-Owl2は、純粋なテキスト環境とマルチモーダル環境の両方でモダリティ協調現象を示す最初のMLLMモデルであり、今後のマルチモーダル基盤モデルの開発に先駆的な道を切り開いた。

mPLUG-Owl2:モダリティ協働によるマルチモーダル大規模言語モデルの革新 | 最新論文 | HyperAI超神経