Command Palette
Search for a command to run...
Zeyu Gan Hao Yi Yong Liu

摘要
强化学习(Reinforcement Learning, RL)已成为提升大语言模型(Large Language Models, LLMs)推理能力的关键方法。然而,一个显著的理论空白依然存在:传统的基于token级别的RL框架难以与复杂、多步骤的思维过程(如思维链,Chain-of-Thought, CoT)所具有的推理层级特性相契合。为应对这一挑战,我们提出CoT-Space——一种新颖的理论框架,将LLM的推理过程从离散的token预测任务重新建模为在连续的、推理层级语义空间中的优化过程。通过从噪声视角和风险视角对这一过程进行分析,我们证明了最优思维链长度的收敛,是欠拟合与过拟合之间根本权衡的自然结果。此外,大量实验为我们的理论发现提供了强有力的实证支持。该框架不仅为“过度思考”等经验现象提供了连贯的解释,更为未来构建更高效、更具泛化能力的推理智能体奠定了坚实的理论基础。