Command Palette
Search for a command to run...

摘要
我们提出 rStar2-Agent,这是一个基于智能体强化学习(agentic reinforcement learning)训练的 140 亿参数数学推理模型,能够实现前沿水平的性能表现。与当前主流的长链思维(long CoT)方法不同,该模型展现出先进的认知行为:在调用 Python 编程工具前会进行审慎思考,并能基于代码执行反馈进行自我反思,自主探索、验证并优化复杂问题求解过程中的中间步骤。这一能力的实现依赖于三项关键技术突破,使智能体强化学习在大规模场景下具备高效可行性:(i)构建了一套高效的强化学习基础设施,配备稳定可靠的 Python 代码执行环境,支持高吞吐量运行,显著降低采样成本,从而可在有限的 GPU 资源(仅 64 块 MI300X)上完成训练;(ii)提出 GRPO-RoC 算法——一种具备“正确即重采样”(Resample-on-Correct)策略的智能体强化学习方法,有效应对编程工具带来的固有环境噪声,使模型在代码环境中具备更高效的推理能力;(iii)设计了一套高效的智能体训练方案,从非推理型监督微调(SFT)起步,逐步推进至多阶段强化学习训练流程,在极低计算成本下实现了高级认知能力的涌现。基于此,rStar2-Agent 仅用一周时间、510 次强化学习迭代,便将预训练的 140 亿参数模型提升至当前最优水平,在 AIME24 数据集上达到 80.6% 的平均 pass@1 分数,在 AIME25 上达到 69.8%,显著超越参数量高达 6710 亿的 DeepSeek-R1 模型,且生成响应长度更短。此外,rStar2-Agent-14B 在数学之外的任务中也展现出强大的泛化能力,涵盖对齐(alignment)、科学推理以及智能体工具使用等场景。相关代码与训练方案已开源,详见:https://github.com/microsoft/rStar。