Command Palette
Search for a command to run...
Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

摘要
通用推理是人工智能(AI)领域长期存在且极具挑战性的难题。近年来,以大语言模型(LLMs)1,2 和思维链(Chain-of-Thought, CoT)提示3 为代表的突破性进展,在基础推理任务上取得了显著成效。然而,这些成果在很大程度上依赖于大量人工标注的推理示范,且模型在应对更复杂问题时仍显能力不足。本文表明,通过纯粹的强化学习(Reinforcement Learning, RL)即可有效激发大语言模型的推理能力,从而无需依赖人工标注的推理轨迹。所提出的RL框架促进了高级推理模式的涌现,例如自我反思、结果验证以及动态策略调整。由此训练出的模型在可验证的任务(如数学求解、编程竞赛及STEM领域)中表现出卓越性能,超越了通过传统监督学习(基于人工示范)训练的同类模型。此外,这些大规模模型所展现出的涌现式推理模式,可系统性地用于指导并提升小型模型的推理能力。