Charlie Zhang Graham Neubig Xiang Yue

摘要
近期的强化学习(RL)技术在语言模型的推理能力提升方面取得了显著进展,但目前尚不清楚后训练是否真正能够将模型的推理能力拓展至预训练阶段所获得能力之外。一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库缺乏透明度,训练过程中的中间阶段往往被忽视,而强化学习目标又与未知的先验知识以复杂方式相互作用。为解决这一模糊性,我们构建了一个完全可控的实验框架,能够分离并厘清预训练、中间训练以及基于强化学习的后训练各自对模型推理能力的因果贡献。我们的方法采用合成推理任务,包含明确的原子操作、可解析的逐步推理轨迹,并系统性地操控训练数据分布。我们在两个维度上评估模型性能:一是对更复杂组合的外推泛化能力,二是跨不同表层语境的上下文泛化能力。借助该框架,我们调和了关于强化学习有效性存在的相互矛盾的观点。研究结果表明:1)只有当预训练为模型留下了足够的提升空间,且强化学习数据聚焦于模型能力边界上的任务(即难度较高但尚未超出其能力范围的任务)时,强化学习才能带来真正的性能提升(pass@128);2)上下文泛化只需适度但充分的预训练暴露,此后强化学习便能实现可靠迁移;3)在固定计算资源条件下,相较于仅依赖强化学习,中间训练显著提升了模型性能,凸显了其在训练流程中关键但长期被忽视的作用;4)基于过程的奖励机制能够有效减少奖励欺骗(reward hacking)现象,提升推理过程的准确性与可信度。综上,这些结果清晰揭示了预训练、中间训练与强化学习之间的相互作用机制,为理解与优化语言模型的推理能力训练策略奠定了坚实基础。