3 天前

We-Math 2.0：一种激励视觉数学推理的多功能MathBook系统

Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

查看论文详情 View Code

摘要

多模态大语言模型（MLLMs）在各类任务中展现出令人瞩目的能力，但在复杂数学推理方面仍存在显著挑战。现有研究主要聚焦于数据集构建与方法优化，往往忽视了两个关键方面：全面的知识驱动设计以及以模型为中心的数据空间建模。本文提出 We-Math 2.0，一个统一的系统，通过整合结构化的数学知识体系、以模型为中心的数据空间建模，以及基于强化学习（RL）的训练范式，全面提升 MLLMs 的数学推理能力。We-Math 2.0 的核心贡献包含四个方面：（1）MathBook 知识体系：我们构建了一个五层分级的知识体系，涵盖 491 个知识点和 1,819 条基础原理；（2）MathBook-Standard 与 MathBook-Pro：我们开发了 MathBook-Standard 数据集，通过双重扩展机制确保概念覆盖广度与灵活性；此外，我们定义了一个三维难度空间，并为每个问题生成 7 个渐进式变体，构建了面向鲁棒训练的高挑战性数据集 MathBook-Pro；（3）MathBook-RL：我们提出一种两阶段强化学习框架，包括：（i）冷启动微调（Cold-Start Fine-tuning），用于引导模型遵循以知识为导向的思维链推理模式；（ii）渐进式对齐强化学习（Progressive Alignment RL），通过平均奖励学习与动态数据调度机制，实现跨不同难度层级的渐进式对齐；（4）MathBookEval：我们引入了一个全面的评估基准，覆盖全部 491 个知识点，并包含多样化的推理步骤分布。实验结果表明，MathBook-RL 在四个广泛使用的基准上表现与现有基线相当，并在 MathBookEval 上取得了优异成绩，显示出在数学推理任务中具有良好的泛化潜力。