Command Palette

Search for a command to run...

2 个月前

CoT-Space:通过强化学习实现内部慢思考的理论框架

Zeyu Gan Hao Yi Yong Liu

CoT-Space:通过强化学习实现内部慢思考的理论框架

摘要

强化学习(Reinforcement Learning, RL)已成为提升大语言模型(Large Language Models, LLMs)推理能力的关键方法。然而,一个显著的理论空白依然存在:传统的基于token级别的RL框架难以与复杂、多步骤的思维过程(如思维链,Chain-of-Thought, CoT)所具有的推理层级特性相契合。为应对这一挑战,我们提出CoT-Space——一种新颖的理论框架,将LLM的推理过程从离散的token预测任务重新建模为在连续的、推理层级语义空间中的优化过程。通过从噪声视角和风险视角对这一过程进行分析,我们证明了最优思维链长度的收敛,是欠拟合与过拟合之间根本权衡的自然结果。此外,大量实验为我们的理论发现提供了强有力的实证支持。该框架不仅为“过度思考”等经验现象提供了连贯的解释,更为未来构建更高效、更具泛化能力的推理智能体奠定了坚实的理论基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供