HyperAI超神経

MME-Reasoning: 論理的推論を評価する包括的なベンチマーク

Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue
公開日: 5/28/2025
MME-Reasoning: 論理的推論を評価する包括的なベンチマーク
要約

論理的推論は、人間の知能の基本的な側面であり、マルチモーダル大規模言語モデル(MLLM)にとって不可欠な能力です。マルチモーダル推論において大きな進歩が見られる一方で、既存のベンチマークは論理的推論の種類に対する明確な分類や推論の理解が不明瞭であるため、その推論能力を包括的に評価することができません。これらの問題に対処するために、我々は MME-Reasoning という包括的なベンチマークを導入しました。このベンチマークは、質問の中で帰納的推論、演繹的推論、および誘拐的推論(アブダクティブ推論)の3つのタイプをカバーしており、MLLM の推論能力を評価することを目的としています。データは慎重に選別され、各質問が知覚技能や知識の広さではなく、真正な推論能力を評価することを確認しています。また、評価プロトコルも多様な質問の評価をカバーするように拡張されています。我々の評価では、最先端の MLLM が全体的な論理的推論能力の評価において著しい制限を持っていることが明らかになりました。最も進んだ MLLM でも、包括的な論理的推論における性能は限定的であり、推論タイプによって顕著な性能差があります。さらに、「思考モード」や規則ベースの強化学習(Rule-based RL)などの一般的に推論能力を向上させると考えられている手法について詳細な分析を行いました。これらの結果は、現在の MLLM が多様な論理的推論シナリオにおいて持つ重要な制限と性能差を示し、推論能力の理解と評価に関する包括的かつ体系的な洞察を与えています。