Command Palette
Search for a command to run...
トレーサブル証拠強化視覚基盤リーズニング:評価と方法論
トレーサブル証拠強化視覚基盤リーズニング:評価と方法論
概要
OpenAI-o3などのモデルは、動的に視覚領域を参照することで、人間の「イメージを使った思考」に近い視覚的な根拠に基づく推論を先駆けて実現しています。しかし、これらの能力を包括的に評価するベンチマークは存在していません。このギャップを埋めるため、私たちはTreeBench(Traceable Evidence Evaluation Benchmark)という診断用ベンチマークを提案します。このベンチマークは以下の3つの原則に基づいて構築されています:(1) 複雑なシーンにおける微妙なターゲットに対する集中した視覚認識、(2) バウンディングボックス評価を通じた追跡可能な証拠、(3) 単純な物体位置特定を超えた物体間の相互作用や空間階層をテストする二次推論。特に密集した物体が含まれる画像を重視し、SA-1Bから1,000枚の高品質画像をサンプリングし、8人のLMMエキスパートが各画像に対して質問、候補選択肢、および答えを手動でアノテーションしました。3段階の品質管理プロセスを経て、TreeBenchは405組の挑戦的な視覚的な質問と回答ペアで構成されています。最も進んだモデルでもこのベンチマークに苦戦しており、どのモデルも60%の精度には達していません。例えば、OpenAI-o3は54.87のスコアしか得られていません。さらに、私たちはTreeVGR(Traceable Evidence Enhanced Visual Grounded Reasoning)という訓練パラダイムを導入します。これは強化学習を使用して位置特定と推論を共同で監督し、正確な位置特定と説明可能な推論パスウェイを可能にするものです。Qwen2.5-VL-7Bから初期化され、V* Bench(+16.8)、MME-RealWorld(+12.6)、TreeBench(+13.4)での性能向上が確認されており、追跡可能性が視覚的な根拠に基づく推論の進歩にとって重要な要素であることが証明されています。コードはhttps://github.com/Haochen-Wang409/TreeVGRで利用可能です。