Command Palette
Search for a command to run...
Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

摘要
不同的基础语言模型家族,如Llama和Qwen,在使用强化学习(RL)进行后训练时表现出不同的行为,尤其是在推理密集型任务上。什么样的基础语言模型适合强化学习?深入探讨这一问题对于开发下一代可扩展至强化学习的基础模型至关重要。在本研究中,我们调查了中期训练策略如何影响强化学习的动力学,重点关注了两个具有代表性的模型家族:Qwen和Llama。我们的研究表明:(1) 高质量的数学语料库,例如MegaMath-Web-Pro,显著提升了基础模型和强化学习的性能,而现有的替代方案(如FineMath-4plus)则未能达到同样的效果;(2) 进一步添加问答式数据,特别是长链推理(CoT)示例,可以增强强化学习的效果,而指令数据进一步释放了这种效应;(3) 尽管长链推理提高了推理深度,但也会导致模型响应冗长及强化学习训练不稳定,突显了数据格式的重要性;(4) 中期训练规模的扩大始终能带来更强的下游强化学习性能。基于这些发现,我们提出了一种两阶段中期训练策略——先稳定后衰减(Stable-then-Decay),首先以恒定的学习率对基础模型进行2000亿个标记的训练,然后在三个专注于长链推理的分支上以学习率衰减的方式继续进行200亿个标记的训练。这产生了OctoThinker系列模型,该系列模型展示了强大的强化学习兼容性,并缩小了与更具强化学习友好性的模型家族(即Qwen)之间的性能差距。我们希望本研究能够为强化学习时代的预训练策略提供指导。为了支持进一步的研究,我们发布了开源模型以及一个包含超过700亿个标记的精心整理的数学推理密集型语料库(即MegaMath-Web-Pro-Max)。
代码仓库
gair-nlp/octothinker
官方
pytorch
GitHub 中提及