9 days ago

MiroMind-M1：通过上下文感知多阶段策略优化在数学推理领域的开源进展

Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing

查看论文详情

摘要

大型语言模型最近从流畅的文本生成发展到了跨多个领域的高级推理，从而产生了推理语言模型（Reasoning Language Models, RLMs）。在这些领域中，数学推理作为一个代表性基准，因其需要精确的多步骤逻辑和抽象推理能力，可以推广到其他任务。尽管像GPT-3这样的闭源RLMs展示了令人印象深刻的推理能力，但其专有性质限制了透明度和可重复性。虽然许多开源项目旨在缩小这一差距，但大多数项目由于省略了关键资源（如数据集和详细的训练配置），缺乏足够的开放性，这阻碍了可重复性。为了促进RLMs开发的更高透明度，我们推出了MiroMind-M1系列，这是一组完全开源的RLMs，基于Qwen-2.5框架构建，性能与现有的开源RLMs相当或超越。具体而言，我们的模型经过两个阶段的训练：首先是在一个精心策划的包含719,000个数学推理问题及其验证过的CoT轨迹的数据集上进行SFT（监督微调）；然后是在62,000个具有挑战性和可验证的问题上进行RLVR（基于验证的强化学习）。为了增强RLVR过程的鲁棒性和效率，我们引入了一种名为“情境感知多阶段策略优化”（Context-Aware Multi-Stage Policy Optimization）的算法，该算法结合了长度递进训练和自适应重复惩罚机制，以鼓励情境感知的强化学习训练。我们的模型在AIME24、AIME25和MATH基准测试中达到了最先进或具有竞争力的性能，并且在基于Qwen-2.5框架的7B和32B开源模型中表现出更高的标记效率。为了便于可重复性研究，我们发布了完整的资源包：包括模型（MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B）、数据集（MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K）以及所有训练和评估配置。我们希望这些资源能够支持进一步的研究并推动社区的发展。