
摘要
近期在大型推理模型方面的进展突显了带有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)作为一种有前景的方法,可以增强人工智能的能力,特别是在解决复杂的逻辑任务方面。然而,目前尚不清楚RLVR是否真正扩展了模型的推理边界,还是仅仅放大了基础模型已知的高奖励输出以提高精度。本研究通过理论和实证分析提供了对RLVR潜在限制的新见解。首先,我们提出了一种新的理论视角,认为RLVR受到基础模型支持的限制,无法采样初始概率为零的解决方案,并且作为一个保守的重新加权机制,可能会限制完全原创解决方案的发现。此外,我们还识别出一个熵-奖励权衡问题:虽然RLVR能够可靠地提高精度,但它可能会逐渐缩小探索范围,从而可能忽略正确但代表性不足的解决方案。广泛的实证实验验证了以下结论:尽管RLVR始终提高了首位命中率(pass@1),但在更大的采样预算下,经验支持度的减少通常超过了其增加的部分,导致无法恢复基础模型之前能够访问到的正确答案。有趣的是,我们还观察到RLVR有时会增加逐个标记级别的熵,这使得每个生成步骤中的不确定性增大;然而,在答案级别上的熵却下降了,表明这些看似更加不确定的路径最终会收敛到一组较小的不同答案上。综上所述,这些发现揭示了RLVR在扩展推理边界方面的潜在局限性。打破这一隐形束缚可能需要未来的算法创新,例如显式探索机制或混合策略,将概率质量引入代表性不足的解空间区域。