HyperAI超神经
5 days ago

BMMR:大规模双语多模态多学科推理数据集

Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
BMMR:大规模双语多模态多学科推理数据集
摘要

本文介绍了BMMR,一个大规模的双语、多模态、多学科推理数据集,旨在帮助社区开发和评估大型多模态模型(LMMs)。BMMR包含11万个大学水平的问题,涵盖了联合国教科文组织定义的300个学科,问题格式多样,包括选择题、填空题和开放性问答题,并来源于书籍、考试和测验等印刷和数字媒体。所有数据均通过人工参与的可扩展框架进行整理和筛选,每个实例都配有一个高质量的推理路径。该数据集分为两部分:BMMR-Eval包含20,458个高质量实例,用于全面评估LMMs在中英文多个学科中的知识和推理能力;BMMR-Train则包含88,991个实例,支持进一步的研究和开发,将目前对数学推理的关注扩展到不同的学科和领域。此外,我们提出了一种基于过程的多学科验证器(即BMMR-Verifier),以实现对推理路径的准确和细粒度评估。我们在24个模型上进行了广泛的实验,结果表明:(i) 即使是最先进的模型(如o3和Gemini-2.5-Pro)在BMMR-Eval上的表现仍有很大的提升空间;(ii) 推理模型表现出学科偏见,在特定科目上优于LMMs;(iii) 开源模型仍落后于专有模型;(iv) 在BMMR-Train上进行微调可以缩小这一差距。此外,我们使用BMMR-Verifier和其他深入研究进行了推理链分析,揭示了LMMs在多学科推理中目前面临的挑战。我们将发布这些数据,并希望我们的工作能为社区提供有价值的见解和贡献。