
摘要
本文介绍了BMMR,一个大规模的双语、多模态、多学科推理数据集,旨在帮助社区开发和评估大型多模态模型(LMMs)。BMMR包含11万个大学水平的问题,涵盖了联合国教科文组织定义的300个学科,问题格式多样,包括选择题、填空题和开放性问答题,并来源于书籍、考试和测验等印刷和数字媒体。所有数据均通过人工参与的可扩展框架进行整理和筛选,每个实例都配有一个高质量的推理路径。该数据集分为两部分:BMMR-Eval包含20,458个高质量实例,用于全面评估LMMs在中英文多个学科中的知识和推理能力;BMMR-Train则包含88,991个实例,支持进一步的研究和开发,将目前对数学推理的关注扩展到不同的学科和领域。此外,我们提出了一种基于过程的多学科验证器(即BMMR-Verifier),以实现对推理路径的准确和细粒度评估。我们在24个模型上进行了广泛的实验,结果表明:(i) 即使是最先进的模型(如o3和Gemini-2.5-Pro)在BMMR-Eval上的表现仍有很大的提升空间;(ii) 推理模型表现出学科偏见,在特定科目上优于LMMs;(iii) 开源模型仍落后于专有模型;(iv) 在BMMR-Train上进行微调可以缩小这一差距。此外,我们使用BMMR-Verifier和其他深入研究进行了推理链分析,揭示了LMMs在多学科推理中目前面临的挑战。我们将发布这些数据,并希望我们的工作能为社区提供有价值的见解和贡献。