Command Palette
Search for a command to run...

要約
我々は、中間的な視覚的画像の生成が成功した推論に不可欠な状況下でモデルの性能を評価することを目的とした新規ベンチマーク「MIRA」を提案する。従来のテキスト中心のChain-of-Thought(CoT)手法とは異なり、MIRAのタスクでは、モデルが中間的な画像——スケッチ、構造図、経路図など——を生成・利用することで、推論プロセスを導くことが求められる。この設定は、人間が「図を描いて考える」ことで複雑な問題を解くプロセスと極めて類似している。MIRAは、言語だけでは容易に表現できない複雑な構造、空間的関係、または推論ステップを内包する、本質的に困難なタスクに焦点を当てる。高品質な評価データを確保するため、中間的な視覚的画像と最終的な正解が付与された546件のマルチモーダル問題を収録している。また、MIRA用の統一的な評価プロトコルを提案し、評価入力の3段階のレベルをカバーする:画像と質問のみの直接入力、画像と思考プロンプトを含むテキスト中心のCoT入力、および注釈付きの画像ヒントとテキスト的思考プロンプトを両方含むVisual-CoT入力。モデルの能力の上限を検証するため、異なるk値設定下でのpass@kおよび多数決投票精度も報告する。実験結果から、現在のマルチモーダル大規模言語モデル(包括的に強力なプライベートモデルおよび強力なオープンウェイトモデルを含む)は、テキストプロンプトのみに依存する場合、著しく低い性能を示すことが明らかになった。しかし、中間的な視覚的手がかりが提供されると、モデルの性能は一貫して向上し、全モデル・全タスク平均で33.7%の相対的な向上が得られた。さらに、検索空間の拡大やVisual-CoTに整合したテキストプロンプトの設計というアプローチにより上限を検証したが、それらは本研究のVisual-CoT設定と比較して、限られた改善にとどまった。これらの結果は、MIRAにおける成功した推論を可能にするために、想像された視覚的情報が果たす重要な役割を強調している。