上海交大提出新框架 OctoThinker,大幅提升 Llama 模型强化学习性能
上海交通大学的研究人员提出了一种名为OctoThinker的新方法,旨在解决大型语言模型(LLM)在强化学习(RL)中的可扩展性问题。目前,尽管某些模型如DeepSeek-R1-Zero在复杂推理任务中表现出色,但这些成果往往仅限于特定的模型家族,如Qwen系列。而对于Llama这样的基础模型家族,应用类似的强化学习策略则相对困难,原因在于不同预训练方法导致的行为不一致。 大型语言模型通过链条式思考(Chain-of-Thought, CoT)提示与大规模强化学习结合,在复杂推理任务中取得了显著进展。然而,这种技术的成功通常局限于少数几个模型系列,尤其是那些在数学竞赛类问题上表现优异的模型。例如,OpenAI的o1、o3和DeepSeek的R1等模型在数亿参数规模下取得了不错的结果。相比之下,尝试将这些技术应用于Llama这样的模型却非常困难。 研究人员发现,高质量的数学预训练数据集,如MegaMath-Web-Pro,能够显著提升基础模型及强化学习后的性能。此外,使用QA格式的数据,特别是那些包含长链条思考过程的数据,可以进一步增强RL的效果。但是,长链条思考也会引入冗长性和训练不稳定性的问题。 为了解决这一问题,上海交通大学的研究人员提出了一种两阶段的中期训练策略——稳定后衰退(Stable-then-Decay)。首先,基础模型被训练在200B token的高质数据集上,然后通过三个专注于链条思考的分支进行后续训练,每个分支再训练20B token。这种策略不仅增强了模型的RL兼容性,还在多个数学基准测试中取得了显著的性能提升。 研究团队使用了MATH8K数据集作为强化学习的训练提示,并设定了全局训练批次大小为128、每个查询生成16个响应以及PPO mini-batch大小为64的配置。实验对象包括Llama-3.2-3B-Base和Qwen2.5-3B-Base两个模型。评估结果显示,经过强化学习调优的Qwen2.5-3B在多个基准任务中表现优异,而Llama-3.2-3B的提升则较为有限。 在对13个数学基准任务进行评估时,每个OctoThinker分支都比原始Llama基础模型提高了10%-20%的性能,并且在所有测试规模上均超过了稳定阶段模型。特别是在链式思考方面,OctoThinker-Long变体表现出色。在比较三款3B规模的基础模型时,OctoThinker-Long-3B明显优于Llama-3.2-3B,并与以强推理能力著称的Qwen2.5-3B达到了相当的性能水平。 这项研究揭示了基础模型如Llama和Qwen在强化学习过程中行为分化的原理,证明了中期训练对RL可扩展性的关键作用。通过稳定的中期训练,Llama模型变得更适合强化学习,形成了OctoThinker系列模型。未来的研究将关注如何进一步优化这种训练策略,使其适用于更多基础模型,并探索如何在更广泛的领域中提升这些模型的推理能力。 业内专家对这一研究表示高度赞赏,认为其突破了现有RL技术的局限,为构建更加通用、适应性强的语言模型提供了新的思路。上海交通大学在人工智能领域一直走在前沿,此次提出的OctoThinker有望成为RL优化的一个里程碑。