Command Palette
Search for a command to run...
GroundingME:多次元評価によるMLLMにおける視覚的接地ギャップの暴露
GroundingME:多次元評価によるMLLMにおける視覚的接地ギャップの暴露
Abstract
視覚的接地(Visual grounding)とは、自然言語による記述から対象物を特定するタスクであり、言語理解と視覚理解の間を結ぶ重要な橋渡しを担っている。現在のマルチモーダル大規模言語モデル(MLLM)は、既存のベンチマークにおいて驚くべきスコアを達成しているが、根本的な問いが残っている。すなわち、MLLMは人間のように洗練されたレベルで言語を視覚情報に「接地」できるのか、それとも単に簡略化されたデータセット上でパターンマッチングを行っているだけなのかである。現行のベンチマークは、人間が曖昧な参照を自然に処理し、接地が不可能であることを認識できるような現実世界の複雑性を捉えていない。MLLMの真の能力を厳密に評価するため、我々は「GroundingME」というベンチマークを提案する。これは、以下の4つの重要な次元においてモデルを体系的に課題にかけるものである。(1)識別性(Discriminative):非常に類似した物体を区別する能力、(2)空間的関係性(Spatial):複雑な空間的関係を記述する表現を理解する能力、(3)限界状況(Limited):遮蔽や極小物体といった制約条件下での対応能力、(4)拒否能力(Rejection):接地不可能なクエリを認識する能力。自動生成と人間による検証を組み合わせた慎重なキュレーションにより、現実世界の複雑性を反映した1,005件の困難なサンプルを構築した。25種類の最先端MLLMを評価した結果、顕著な能力ギャップが明らかになった。最も優れたモデルでも正答率は45.1%にとどまり、多くのモデルは拒否タスクにおいて0%のスコアを記録しており、実際には存在しない物体を無意識に「幻覚」(hallucinate)してしまっている。これは、実用化に際して重大な安全性上の懸念を喚起するものである。我々は改善のための2つの戦略を検討した。(1)テスト時スケーリングでは、思考経路(thinking trajectory)に基づいて最適な回答を選択することで、複雑な接地タスクの性能を最大2.9%向上させることができた。(2)データミックストレーニングにより、モデルが接地不可能なクエリを認識する能力を学習させることで、拒否タスクの正答率を0%から27.9%まで向上させることができた。したがって、GroundingMEは、MLLMの現在の限界を明らかにする診断ツールとしての役割を果たすとともに、人間レベルの視覚的接地を実現するための道筋を示すものとなっている。