Command Palette
Search for a command to run...
Heng Lin Zhongwen Xu

摘要
我们研究了工具集成推理(Tool-Integrated Reasoning, TIR)为何能显著提升大型语言模型(Large Language Models, LLMs)的能力。尽管将LLMs与Python代码解释器等工具相结合展现出巨大潜力,但长期以来缺乏一个系统性的理论来解释这一范式为何有效。本文首次提供了形式化证明,表明TIR从根本上扩展了LLM的能力边界。我们证明,工具能够严格扩展模型的实证支持集与可行解空间,突破纯文本模型的能力上限,从而解锁原本不可行或表达极其冗长的问题求解策略。为在不损害训练稳定性与性能的前提下引导模型行为,我们进一步提出一种新型算法——优势函数塑形策略优化(Advantage Shaping Policy Optimization, ASPO),该算法直接对优势函数进行修改,以引导策略行为。我们在具有挑战性的数学基准测试上开展了全面实验,以外部工具——Python解释器——作为辅助手段。实验结果表明,TIR模型在pass@k指标上显著优于其纯文本对照模型。尤为重要的是,这种优势不仅体现在计算密集型问题上,也延伸至需要深度抽象洞察的任务中。我们进一步识别出模型在使用工具过程中涌现出的认知模式,揭示了其如何学会“借助工具进行思考”。最后,我们发现,在ASPO的引导下,模型表现出更早触发代码调用的行为,且交互轮次显著增加。总体而言,本工作首次为TIR的成功提供了系统性的理论解释,推动研究重点从“工具是否有效”转向“为何以及如何通过工具实现更强大的推理能力”。