5ヶ月前

MMDU：LVLMs向けのマルチターン・マルチイメージ対話理解ベンチマークおよびインストラクションチューニングデータセット

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin

要約

多モーダルな人間からの入力に対し、自然で意味のある応答を生成して対話を行う能力は、大規模視覚言語モデル（Large Vision-Language Models: LVLMs）の基盤的機能である。現行のオープンソースLVLMは、単一のターン・単一画像入力といった簡易なシナリオでは有望な性能を示しているが、長文の文脈履歴に沿って複数ターン・複数画像を扱う現実世界の対話シナリオでは依然として不足している。既存のLVLMベンチマークは主に単一選択式の質問や短い応答を対象としており、LVLMの現実世界における人間-AI対話応用における能力を十分に評価できていない。したがって、本研究では、複数ターン・複数画像対話におけるLVLMの能力を評価・向上させるために、包括的なベンチマーク「MMDU」と、大規模なインストラクションチューニングデータセット「MMDU-45k」を提案する。MMDUは、オープンソースのWikipediaからクラスタリングアルゴリズムを用いて関連する画像およびテキスト記述を抽出し、GPT-4oモデルを支援として用いながら人間のアノテーターが質問-回答ペアを構築した。MMDUは最大で18,000トークン（画像＋テキスト）、20枚の画像、27ターンをカバーしており、従来のベンチマークと比較して少なくとも5倍以上長く、現在のLVLMに高い課題を提示している。MMDUを用いた15の代表的なLVLMに対する詳細な分析から、オープンソースLVLMは対話用インストラクションチューニングデータの制限により、閉鎖型モデルと比較して遅れをとっていることが明らかになった。本研究では、MMDU-45kでオープンソースLVLMをファインチューニングすることで、このギャップが顕著に解消され、より長く正確な対話が生成され、MMDUおよび既存のベンチマーク（MMStar: +1.1%、MathVista: +1.5%、ChartQA: +1.2%）でのスコアが向上することを示した。本研究の貢献は、現在のLVLMモデルと現実世界の応用ニーズとの間のギャップを埋める道を開くものである。本プロジェクトは、https://github.com/Liuziyu77/MMDU にて公開されている。

コードリポジトリ

liuziyu77/mmdu

公式

pytorch

GitHubで言及

ベンチマーク

ベンチマーク	方法論	指標
visual-question-answering-on-mm-vet	InternLM-XC2 + MMDU-45k	GPT-4 score: 38.8

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette