Command Palette
Search for a command to run...
强化学习是否真的能够激励LLM在基础模型之外提升推理能力?
强化学习是否真的能够激励LLM在基础模型之外提升推理能力?
Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Shiji Song Yang Yue Gao Huang
Abstract
强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)近期在提升大语言模型(Large Language Models, LLMs)的推理能力方面展现出显著成效,尤其在数学求解和编程任务中表现突出。人们普遍认为,正如传统强化学习能够帮助智能体探索并习得新策略一样,RLVR 使 LLMs 能够持续自我优化,从而获得超越其基础模型(base model)能力范围的新型推理能力。在本研究中,我们通过系统性地探究 RLVR 训练的 LLMs 在多种模型架构、强化学习算法以及数学、编程和视觉推理基准上的推理能力边界,对当前 RLVR 的发展状态进行了批判性审视。我们采用在较大 k 值下的 pass@k 作为评估指标。尽管 RLVR 能够提升模型向正确解路径的采样效率,但令人意外的是,当前的训练方法并未激发根本性的新型推理模式。我们发现,虽然在较小的 k 值下(如 k=1),RLVR 训练的模型优于其基础模型,但当 k 增大时,基础模型反而取得了更高的 pass@k 分数。此外,我们观察到,随着 RLVR 训练的推进,LLM 的推理能力边界往往反而收窄。进一步的覆盖度(coverage)与困惑度(perplexity)分析表明,RLVR 模型生成的推理路径早已包含在基础模型的采样分布之中,说明其推理能力源于基础模型,并且受到该基础模型的严格限制。从这一视角出发,将基础模型视为能力上限,我们的定量分析显示,六种主流的 RLVR 算法表现相近,且在充分挖掘基础模型潜力方面仍相去甚远。相比之下,我们发现知识蒸馏(distillation)能够从教师模型中引入全新的推理模式,真正拓展模型的推理能力。综上所述,我们的研究结果表明,当前的 RLVR 方法尚未充分实现强化学习在激发 LLMs 真正新型推理能力方面的潜力。这凸显了对更优强化学习范式(如持续扩展与多轮次智能体-环境交互)的迫切需求,以真正释放这一潜力。