VisuLogic:一个多模态大语言模型视觉推理的基准测试
Weiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu
发布日期: 4/26/2025

摘要
视觉推理是人类智能的核心组成部分,也是高级多模态模型的关键能力。然而,当前对多模态大语言模型(MLLMs)的推理评估通常依赖于文本描述,并允许基于语言的推理捷径,无法真正衡量以视觉为中心的推理能力。为了解决这一问题,我们引入了VisuLogic:一个包含1,000个经人工验证的问题的基准测试集,涵盖六个类别(例如,定量变化、空间关系、属性比较)。这些不同类型的题目可以从多个角度评估MLLMs的视觉推理能力。我们在该基准上评估了领先的MLLMs,并分析其结果以识别常见的失败模式。大多数模型的准确率低于30%,仅略高于25%的随机基线水平,远低于人类达到的51.4%,这揭示了在视觉推理方面存在显著差距。此外,我们还提供了一个补充训练数据集和一个强化学习基线,以支持进一步的研究进展。