
摘要
强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLMs)的推理能力方面展现出巨大潜力。然而,其成功主要局限于数学和代码领域。这一主要局限性源于对特定领域验证器的严重依赖,这导致了复杂度高且扩展性有限的问题。为了解决这一挑战,我们的关键观察是:LLM 生成正确自由形式答案的内在概率直接反映了其对推理奖励的自我评估(即推理过程导向正确答案的程度)。基于这一见解,我们提出了 RLPR,这是一种简单的无验证器框架,将 RLVR 扩展到更广泛的通用领域。RLPR 利用 LLM 自身对参考答案的令牌概率分数作为奖励信号,并在训练过程中最大化预期奖励。我们发现,解决这种噪声概率奖励的高方差问题是使其有效运行的关键,并提出了一种从 LLM 内在概率中获得精确且稳定的奖励的方法——概率转奖励和稳定化方法。我们在四个通用领域基准测试和三个数学基准测试中进行了全面实验,结果表明 RLPR 能够持续提升 Gemma、Llama 和 Qwen 基础模型在这两个领域的推理能力。值得注意的是,RLPR 在 TheoremQA 上比同期的 VeriFree 高出 7.6 分,在 Minerva 上高出 7.5 分,并且在七个基准测试中的平均得分上超过了依赖强验证器模型的方法 General-Reasoner 1.6 分。