HyperAI超神经
Back to Headlines

强化学习并未根本提升大语言模型的推理能力:新研究揭示关键局限性

6 天前

近期,在大语言模型(LLM)领域,带有可验证奖励的强化学习(RLVR)被广泛认为能够在数学和编程任务中显著提升模型的推理能力。这种技术允许 LLM 根据外部反馈不断自我优化,以期获得超越其初始训练水平的新推理能力。然而,最近一项研究表明,RLVR 的实际效果可能没有预期中的那么强大。 在这项研究中,研究人员通过对 pass@k 指标的测量,即考虑多个可能输出的答案(k 值增大),来评估不同模型在推理任务中的表现。结果发现,尽管经过 RL 训练的模型在较小的 k 值(如 k=1)条件下表现优于基础模型,但在 k 值增大时,基础模型的表现反而超过了或至少达到了 RL 训练模型的水平。这一现象表明,RL 训练并没有在模型中激发全新的推理模式,而是使其更倾向于选择更容易获得奖励的输出路径,从而提高了在较小 k 值下的效率。这意味着,大多数通过 RL 训练提高的推理解答能力,其实已经在基础模型的潜在能力范围内。 进一步的分析显示,RL 训练的这种方式实际上限制了模型的多样性,减少了其探索不同推理路径的能力。研究人员还探讨了 RLVR 在视觉推理任务中的应用,发现在该类任务中也存在类似的现象。这表明,不论是在纯语言任务还是跨模态任务中,RLVR 都未能显著扩展 LLM 的推理能力边界。 与此相反,研究还对比了另一种技术——知识蒸馏的效果。知识蒸馏通过让学生模型学习教师模型的知识,确实能够在某种程度上为学生模型引入新知识,而这是 RLVR 所缺乏的。这一发现提示我们,尽管 RLVR 可以在特定情况下提高 LLM 的表现,但如果目的是真正增强模型的推理能力和知识广度,可能需要探索包括知识蒸馏在内的其他方法或范式。 综上所述,该研究揭示了 RLVR 的一个重要局限性,即它主要提升了模型的效率而不是真正扩展其推理能力,这提醒我们在追求更高性能的 LLM 时,不应单纯依赖强化学习,而应积极探索其他技术和方法。项目页面:https://limit-of-RLVR.github.io

Related Links