Command Palette

Search for a command to run...

2 天前

强化学习是否真的能够激励LLM在基础模型之外提升推理能力?

Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Shiji Song Yang Yue Gao Huang

强化学习是否真的能够激励LLM在基础模型之外提升推理能力?

摘要

强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)近期在提升大语言模型(Large Language Models, LLMs)的推理能力方面展现出显著成效,尤其在数学求解和编程任务中表现突出。人们普遍认为,正如传统强化学习能够帮助智能体探索并习得新策略一样,RLVR 使 LLMs 能够持续自我优化,从而获得超越其基础模型(base model)能力范围的新型推理能力。在本研究中,我们通过系统性地探究 RLVR 训练的 LLMs 在多种模型架构、强化学习算法以及数学、编程和视觉推理基准上的推理能力边界,对当前 RLVR 的发展状态进行了批判性审视。我们采用在较大 kkk 值下的 pass@k 作为评估指标。尽管 RLVR 能够提升模型向正确解路径的采样效率,但令人意外的是,当前的训练方法并未激发根本性的新型推理模式。我们发现,虽然在较小的 kkk 值下(如 k=1k=1k=1),RLVR 训练的模型优于其基础模型,但当 kkk 增大时,基础模型反而取得了更高的 pass@k 分数。此外,我们观察到,随着 RLVR 训练的推进,LLM 的推理能力边界往往反而收窄。进一步的覆盖度(coverage)与困惑度(perplexity)分析表明,RLVR 模型生成的推理路径早已包含在基础模型的采样分布之中,说明其推理能力源于基础模型,并且受到该基础模型的严格限制。从这一视角出发,将基础模型视为能力上限,我们的定量分析显示,六种主流的 RLVR 算法表现相近,且在充分挖掘基础模型潜力方面仍相去甚远。相比之下,我们发现知识蒸馏(distillation)能够从教师模型中引入全新的推理模式,真正拓展模型的推理能力。综上所述,我们的研究结果表明,当前的 RLVR 方法尚未充分实现强化学习在激发 LLMs 真正新型推理能力方面的潜力。这凸显了对更优强化学习范式(如持续扩展与多轮次智能体-环境交互)的迫切需求,以真正释放这一潜力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供