7日前

mPLUG-Owl3:マルチモーダル大規模言語モデルにおける長時間画像系列理解への挑戦

Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl3:マルチモーダル大規模言語モデルにおける長時間画像系列理解への挑戦
要約

マルチモーダル大規模言語モデル(MLLM)は、単一画像タスクに対する指示実行において顕著な能力を示している。しかし、長時間の画像シーケンスのモデリングに関しては、依然として大きな課題が残っている。本研究では、検索された画像・テキスト知識を含む状況、画像・テキストの混合入力、および長大な動画に対応する、長時間画像シーケンスの理解能力を強化した汎用的なマルチモーダル大規模言語モデル「mPLUG-Owl3」を提案する。具体的には、視覚情報と言語情報を共通の言語誘導型意味空間に効率的に統合するための新しいハイパーアテンションブロックを導入し、複数画像の拡張されたシナリオ処理を可能にした。広範な実験結果から、mPLUG-Owl3は同程度のサイズを持つモデルの中で、単一画像、複数画像、動画ベンチマークにおいて最先端の性能を達成していることが示された。さらに、モデルが干渉要因の中でも注目を維持できる能力を評価するため、挑戦的な長時間視覚シーケンス評価指標「Distractor Resistance」を提案した。最後に、提案するアーキテクチャにより、mPLUG-Owl3は超長時間視覚シーケンス入力に対しても優れた性能を発揮した。本研究が、より効率的かつ強力なマルチモーダル大規模言語モデルの開発に貢献することを期待する。

mPLUG-Owl3:マルチモーダル大規模言語モデルにおける長時間画像系列理解への挑戦 | 最新論文 | HyperAI超神経