11 天前

Math-Shepherd:无需人工标注,分步验证与强化LLMs

Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui
Math-Shepherd:无需人工标注,分步验证与强化LLMs
摘要

本文提出了一种创新的过程导向型数学解题奖励模型——Math-Shepherd,该模型为数学问题求解过程中的每一步骤分配一个奖励分数。Math-Shepherd 的训练基于自动构建的过程级监督数据,突破了现有方法对人工标注数据高度依赖的瓶颈。我们探讨了 Math-Shepherd 在两种场景下的有效性:1)验证(Verification):利用 Math-Shepherd 对大语言模型(LLMs)生成的多个解题输出进行重排序;2)强化学习(Reinforcement Learning):将 Math-Shepherd 用于基于逐步式近端策略优化(Step-by-Step Proximal Policy Optimization, PPO)的 LLM 强化训练。借助 Math-Shepherd,一系列开源大语言模型展现出卓越性能。例如,在 GSM8K 数据集上,采用 Math-Shepherd 的逐步 PPO 方法使 Mistral-7B 的准确率从 77.9% 提升至 84.1%;在 MATH 数据集上,准确率则从 28.6% 提升至 33.0%。进一步结合 Math-Shepherd 的验证机制,GSM8K 和 MATH 上的准确率可分别提升至 89.1% 和 43.5%。我们认为,自动化的过程级监督具有巨大潜力,有望推动大语言模型未来的演进。

Math-Shepherd:无需人工标注,分步验证与强化LLMs | 最新论文 | HyperAI超神经