ReTool:LLM中战略工具使用的强化学习
Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
发布日期: 4/24/2025

摘要
尽管通过强化学习(RL)训练的推理模型(例如DeepSeek R1)在文本推理方面表现出色,但在需要结构化问题解决能力的场景中,如几何推理、简洁计算或复杂方程求解——这些领域中计算工具如代码解释器(CI)具有明显优势——它们却显得力不从心。为弥合这一差距,我们提出ReTool,该方法通过集成工具学习来增强长篇推理能力,包括两个关键特性:(1)在自然语言推理过程中动态交织实时代码执行;(2)一种自动化RL范式,允许多轮次实时代码执行的策略展开,并根据结果反馈教导模型何时以及如何调用工具。ReTool采用了一种系统的训练框架,首先通过合成冷启动数据生成来产生用于微调基础模型的代码增强型长篇推理轨迹。随后的RL训练利用任务结果作为奖励,迭代地优化模型的工具使用策略,使模型能够在没有人类先验知识的情况下自主发现最优工具调用模式。在具有挑战性的MATH奥林匹克基准AIME上的实验表明了ReTool的优势:我们的32B模型在400个训练步骤后达到了67%的准确率,比基于文本的RL基线(40%准确率,1080个步骤)更高效且性能更佳。值得注意的是,在扩展设置下,ReTool-32B达到了72.5%的准确率,比OpenAI的o1-preview高出27.9%。进一步分析揭示了诸如代码自我修正等新兴行为,这标志着一个“顿悟时刻”,即模型自主掌握了适应性工具使用。这些发现突显了以结果为导向的工具集成对于推进复杂数学推理的能力,并为混合神经符号系统提供了新的见解。