rStar-Math: 小型语言模型通过自我进化深度思考掌握数学推理
Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
发布日期: 4/24/2025

摘要
我们介绍了rStar-Math,以证明小型语言模型(SLMs)在无需从更高级模型中提取知识的情况下,能够与OpenAI的o1模型在数学推理能力上相匹敌甚至超越。rStar-Math通过使用蒙特卡洛树搜索(MCTS)进行“深度思考”来实现这一目标,其中数学策略SLM在基于SLM的过程奖励模型的指导下进行测试时搜索。 rStar-Math引入了三项创新来应对训练这两个SLM所面临的挑战:(1)一种新颖的代码增强链式思维(CoT)数据合成方法,该方法通过广泛的MCTS模拟生成用于训练策略SLM的逐步验证推理轨迹;(2)一种新颖的过程奖励模型训练方法,避免了简单的步骤级评分标注,从而生成更有效的过程偏好模型(PPM);(3)一种自我进化方案,其中策略SLM和PPM从零开始构建,并通过迭代进化来提升推理能力。通过四轮自我进化,生成数百万个747,000道数学问题的合成解决方案,rStar-Math将小型语言模型的数学推理能力提升至最先进水平。 在MATH基准测试中,rStar-Math将Qwen2.5-Math-7B的正确率从58.8%提升至90.0%,将Phi3-mini-3.8B的正确率从41.4%提升至86.4%,分别超过了o1-preview 4.5%和0.9%。在美国数学奥林匹克竞赛(AIME)中,rStar-Math平均解决了53.3%(8/15)的问题,表现优于最优秀的20%高中数学学生。代码和数据将在https://github.com/microsoft/rStar提供。