Command Palette

Search for a command to run...

1 个月前

DeepSearch:通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

Fang Wu Weihao Xuan Heli Qi Ximing Lu Aaron Tu Li Erran Li Yejin ChoiRetry

DeepSearch:通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

摘要

尽管强化学习中的自我反思(RLVR)已成为提升大语言模型(LLM)高级推理能力的关键组件,但现有研究已记录到,在经历数千次优化步骤后,模型性能会出现明显的训练瓶颈,表现为尽管计算资源持续投入,性能提升却显著下降。这一局限性源于当前RLVR实践固有的稀疏探索模式:模型依赖有限的轨迹采样,往往错失关键的推理路径,无法对解空间进行系统性覆盖。为此,我们提出DeepSearch框架,该框架将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)直接集成到RLVR的训练过程中。与现有方法仅在推理阶段使用树搜索不同,DeepSearch将结构化搜索嵌入训练循环,实现了对推理步骤的系统性探索,并支持细粒度的信用分配。通过在训练过程中引入探索机制,DeepSearch有效缓解了因探索不足导致的性能增长停滞问题。我们的主要贡献包括:(1)一种全局前沿节点选择策略,能够优先选取搜索树中具有潜力的节点;(2)基于熵引导的选择机制,可识别出具有高置信度的推理路径以供监督;(3)结合解缓存机制的自适应回放缓冲区训练方法,显著提升训练效率。在数学推理基准测试中的实验结果表明,DeepSearch在15亿参数规模的推理模型上实现了62.95%的平均准确率,创下该规模模型的新SOTA(state-of-the-art)纪录,且仅需传统扩展训练方法5.7倍的GPU小时数。这些结果凸显了战略性探索相较于盲目算力扩展的重要性,展示了算法创新在推动RLVR方法发展方面的巨大潜力。DeepSearch为提升模型推理能力开辟了新路径——通过系统性搜索实现能力扩展,而非依赖长时间的计算累积。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供