
摘要
多模态大语言模型(MLLMs)在各类任务中展现出令人瞩目的能力,但在复杂数学推理方面仍存在显著挑战。现有研究主要聚焦于数据集构建与方法优化,往往忽视了两个关键方面:全面的知识驱动设计以及以模型为中心的数据空间建模。本文提出 We-Math 2.0,一个统一的系统,通过整合结构化的数学知识体系、以模型为中心的数据空间建模,以及基于强化学习(RL)的训练范式,全面提升 MLLMs 的数学推理能力。We-Math 2.0 的核心贡献包含四个方面:(1)MathBook 知识体系:我们构建了一个五层分级的知识体系,涵盖 491 个知识点和 1,819 条基础原理;(2)MathBook-Standard 与 MathBook-Pro:我们开发了 MathBook-Standard 数据集,通过双重扩展机制确保概念覆盖广度与灵活性;此外,我们定义了一个三维难度空间,并为每个问题生成 7 个渐进式变体,构建了面向鲁棒训练的高挑战性数据集 MathBook-Pro;(3)MathBook-RL:我们提出一种两阶段强化学习框架,包括:(i)冷启动微调(Cold-Start Fine-tuning),用于引导模型遵循以知识为导向的思维链推理模式;(ii)渐进式对齐强化学习(Progressive Alignment RL),通过平均奖励学习与动态数据调度机制,实现跨不同难度层级的渐进式对齐;(4)MathBookEval:我们引入了一个全面的评估基准,覆盖全部 491 个知识点,并包含多样化的推理步骤分布。实验结果表明,MathBook-RL 在四个广泛使用的基准上表现与现有基线相当,并在 MathBookEval 上取得了优异成绩,显示出在数学推理任务中具有良好的泛化潜力。