mPLUG-Owl:モジュール化が大規模言語モデルにマルチモーダリティをもたらす

大規模言語モデル(LLM)は、多様なオープンエンドタスクにおいて驚くべきゼロショット能力を示しており、近年の研究ではLLMをマルチモーダル生成に活用する試みも進められている。本研究では、基礎LLM、視覚知識モジュール、視覚アブストラクタモジュールのモジュール化学習を通じて、LLMにマルチモーダル能力を付与する新たな訓練枠組み「mPLUG-Owl」を提案する。このアプローチは、複数のモダリティをサポートし、モダリティ間の協調により、多様な単モーダルおよびマルチモーダル能力を実現可能にする。mPLUG-Owlの訓練枠組みは、画像とテキストのアライメントを実現する二段階手法を採用しており、LLMの支援のもとで視覚知識を学習しつつ、LLMの生成能力を維持・甚至は向上させる。第一段階では、LLMモジュールを固定した状態で、視覚知識モジュールとアブストラクタモジュールを画像とテキストのアライメントに向けた学習を行う。第二段階では、言語のみのデータセットとマルチモーダルの教師ありデータセットを用い、視覚知識モジュールを固定した状態で、LLMとアブストラクタモジュールに低ランク適応(LoRA)モジュールを共同微調整する。また、視覚関連のインストラクション評価用データセット「OwlEval」を丁寧に構築した。実験結果から、本モデルは既存のマルチモーダルモデルを上回る性能を示し、mPLUG-Owlが優れたインストラクション理解能力、視覚理解能力、マルチターン会話能力、知識推論能力を有していることを実証した。さらに、予期しないが興味深い能力として、複数画像間の関連性把握やシーンテキスト理解が観察された。これらは、視覚のみを用いたドキュメント理解など、より困難な現実シーンへの応用可能性を示唆している。本研究のコード、事前学習モデル、インストラクションチューニングモデル、および評価データセットは、https://github.com/X-PLUG/mPLUG-Owl にて公開されており、オンラインデモは https://www.modelscope.cn/studios/damo/mPLUG-Owl で体験可能である。