MME-Reasoning:面向逻辑推理的多模态语言模型综合基准测试
Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue
发布日期: 5/28/2025

摘要
逻辑推理是人类智能的一个基本方面,也是多模态大语言模型(MLLMs)的一项重要能力。尽管在多模态推理方面取得了显著进展,现有的基准测试仍未能全面评估这些模型的推理能力,原因在于缺乏对逻辑推理类型的明确分类以及对推理过程的理解不够清晰。为了解决这些问题,我们引入了MME-Reasoning,这是一个全面的基准测试,旨在评估MLLMs的推理能力,其问题涵盖了所有三种推理类型(即归纳推理、演绎推理和溯因推理)。我们精心策划数据,确保每个问题都能有效评估推理能力而非感知技能或知识广度,并扩展了评估协议以涵盖各种问题的评估。我们的评估结果揭示了最先进的MLLMs在综合逻辑推理能力评估中存在显著局限性。即使是最先进的MLLMs,在全面逻辑推理方面的表现也有限,并且在不同类型的推理中表现出明显的性能不平衡。此外,我们还对“思考模式”和基于规则的强化学习(Rule-based RL)等常用方法进行了深入分析,这些方法被认为可以增强推理能力。这些发现突显了当前MLLMs在多样化逻辑推理场景中的关键局限性和性能不平衡,为理解和评估推理能力提供了全面而系统的见解。