Command Palette
Search for a command to run...
Kaiyan Zhang Yuxin Zuo Bingxiang He Youbang Sun Runze Liu et al

摘要
本文综述了强化学习(Reinforcement Learning, RL)在大语言模型(Large Language Models, LLMs)推理能力提升方面的最新进展。强化学习在推动大语言模型能力边界方面取得了显著成果,尤其是在解决数学推导、编程等复杂逻辑任务方面表现突出。因此,强化学习已逐渐成为将大语言模型转化为推理语言模型(Language Reasoning Models, LRM)的核心方法。随着该领域快速发展,强化学习在LRM方向的进一步规模化正面临一系列基础性挑战,不仅体现在计算资源的限制上,更涉及算法设计、训练数据供给以及基础设施支撑等多个方面。在此背景下,重新审视该领域的演进历程,评估其发展轨迹,并探索提升强化学习可扩展性以迈向人工超级智能(Artificial Superintelligence, ASI)的策略,显得尤为迫切。本文特别聚焦于自DeepSeek-R1发布以来,强化学习在提升LLM与LRM推理能力方面的研究进展,系统分析其基础架构、核心问题、训练资源及下游应用,旨在识别该快速演进领域未来的发展机遇与研究方向。我们期望本综述能够推动强化学习在更广泛推理模型研究中的深入发展。