16日前

リスト項目を1つずつ:マルチモーダルLLMにおける新たなデータソースと学習枠組み

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang
リスト項目を1つずつ:マルチモーダルLLMにおける新たなデータソースと学習枠組み
要約

Set-of-Mark(SoM)プロンプティングは、画像上に挿入されたタグと視覚的オブジェクトを関連付けることで、GPT-4Vの視覚的接地(visual grounding)能力を最大限に引き出します。これらのタグはアルファベットと数字の組み合わせでマークされ、テキストトークンによってインデックス化され、参照が容易になります。GPT-4Vは優れた性能を発揮する一方で、他のマルチモーダル大規模言語モデル(MLLM)はこれらの視覚的タグの理解に苦戦することが観察されました。オープンソースモデルにおけるSoMプロンプティングの学習を促進するために、本研究では新たな学習枠組み「一項目ずつリストアップする(list items one by one)」を提案します。このアプローチでは、モデルに画像上に配置されたすべての視覚的タグを、タグのアルファベット・数字順に順に列挙し、説明させるように指示します。本研究が独自に構築したデータセットを、他の視覚的インストラクションチューニングデータセットと統合することで、既存のMLLMにSoMプロンプティングの能力を付与することが可能になりました。さらに、5つのMLLMベンチマークにおいて、微調整済みのSoMモデルの性能を評価した結果、本データセットは比較的小規模(タグ付き画像1万〜3万枚)であるにもかかわらず、MLLMの視覚的推論能力を顕著に向上させ、幻覚(hallucination)の発生を低減することが明らかになりました。驚くべきことに、推論段階で画像から視覚的タグを削除しても、これらの性能向上効果が持続することが確認されました。これは、「一項目ずつリストアップする」というアプローチが、訓練段階で視覚的タグを用いてオブジェクトとテキストの対応を強化するという点で、MLLMの訓練における新たなパラダイムとしての可能性を示唆しています。最後に、訓練済みモデルの挙動を調査するためのプロービング解析を通じて、SoMの動作メカニズムの理解を深めました。本研究のコードとデータは、https://github.com/zzxslp/SoM-LLaVA にて公開されています。

リスト項目を1つずつ:マルチモーダルLLMにおける新たなデータソースと学習枠組み | 最新論文 | HyperAI超神経