在没有外部奖励的情况下学习推理
Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
发布日期: 5/28/2025

摘要
通过「可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)」训练大型语言模型(LLMs)以提升复杂推理能力已被证明是有效的,但该方法受限于对高成本、特定领域监督信号的依赖。本文探索了一种新的训练框架 ——「基于内部反馈的强化学习(Reinforcement Learning from Internal Feedback, RLIF)」,该方法使语言模型能够依靠自身的内在信号进行学习,无需外部奖励或人工标注数据。 我们提出了一种名为 Intuitor 的 RLIF 方法,它将模型自身的置信度(我们称之为自我确定性 self-certainty)作为唯一的奖励信号。Intuitor 在「群体相对策略优化(Group Relative Policy Optimization, GRPO)」框架中,用自我确定性分数取代外部奖励,从而实现完全无监督学习。实验结果表明,Intuitor 在数学基准测试中的表现与 GRPO 相当,同时在代码生成等跨领域任务中展现出更强的泛化能力,而无需依赖标准答案或测试用例。我们的研究表明,模型的内在信号可以有效驱动跨领域的学习,为在无法获得可验证奖励的情况下,构建自主 AI 系统提供了一种可扩展的替代方案。