2 个月前

CoT-Space：通过强化学习实现内部慢思考的理论框架

Zeyu Gan Hao Yi Yong Liu

摘要

强化学习（Reinforcement Learning, RL）已成为提升大语言模型（Large Language Models, LLMs）推理能力的关键方法。然而，一个显著的理论空白依然存在：传统的基于token级别的RL框架难以与复杂、多步骤的思维过程（如思维链，Chain-of-Thought, CoT）所具有的推理层级特性相契合。为应对这一挑战，我们提出CoT-Space——一种新颖的理论框架，将LLM的推理过程从离散的token预测任务重新建模为在连续的、推理层级语义空间中的优化过程。通过从噪声视角和风险视角对这一过程进行分析，我们证明了最优思维链长度的收敛，是欠拟合与过拟合之间根本权衡的自然结果。此外，大量实验为我们的理论发现提供了强有力的实证支持。该框架不仅为“过度思考”等经验现象提供了连贯的解释，更为未来构建更高效、更具泛化能力的推理智能体奠定了坚实的理论基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

CoT-Space：通过强化学习实现内部慢思考的理论框架

Zeyu Gan Hao Yi Yong Liu

摘要

用 AI 构建 AI

Hyper Newsletters