Command Palette
Search for a command to run...

要約
多モーダルな人間からの入力に対し、自然で意味のある応答を生成して対話を行う能力は、大規模視覚言語モデル(Large Vision-Language Models: LVLMs)の基盤的機能である。現行のオープンソースLVLMは、単一のターン・単一画像入力といった簡易なシナリオでは有望な性能を示しているが、長文の文脈履歴に沿って複数ターン・複数画像を扱う現実世界の対話シナリオでは依然として不足している。既存のLVLMベンチマークは主に単一選択式の質問や短い応答を対象としており、LVLMの現実世界における人間-AI対話応用における能力を十分に評価できていない。したがって、本研究では、複数ターン・複数画像対話におけるLVLMの能力を評価・向上させるために、包括的なベンチマーク「MMDU」と、大規模なインストラクションチューニングデータセット「MMDU-45k」を提案する。MMDUは、オープンソースのWikipediaからクラスタリングアルゴリズムを用いて関連する画像およびテキスト記述を抽出し、GPT-4oモデルを支援として用いながら人間のアノテーターが質問-回答ペアを構築した。MMDUは最大で18,000トークン(画像+テキスト)、20枚の画像、27ターンをカバーしており、従来のベンチマークと比較して少なくとも5倍以上長く、現在のLVLMに高い課題を提示している。MMDUを用いた15の代表的なLVLMに対する詳細な分析から、オープンソースLVLMは対話用インストラクションチューニングデータの制限により、閉鎖型モデルと比較して遅れをとっていることが明らかになった。本研究では、MMDU-45kでオープンソースLVLMをファインチューニングすることで、このギャップが顕著に解消され、より長く正確な対話が生成され、MMDUおよび既存のベンチマーク(MMStar: +1.1%、MathVista: +1.5%、ChartQA: +1.2%)でのスコアが向上することを示した。本研究の貢献は、現在のLVLMモデルと現実世界の応用ニーズとの間のギャップを埋める道を開くものである。本プロジェクトは、https://github.com/Liuziyu77/MMDU にて公開されている。
コードリポジトリ
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XC2 + MMDU-45k | GPT-4 score: 38.8 |