HyperAI超神经

Tool-Star:通过强化学习增强LLM驱动的多工具推理器

Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen
发布日期: 5/25/2025
Tool-Star:通过强化学习增强LLM驱动的多工具推理器
摘要

近期,大规模语言模型(LLMs)通过大规模强化学习(RL)展示了卓越的推理能力。然而,利用RL算法实现LLMs在多工具协作推理中的有效应用仍然是一个开放性的挑战。本文介绍了Tool-Star,一种基于RL的框架,旨在使LLMs能够在逐步推理过程中自主调用多个外部工具。Tool-Star集成了六种类型的工具,并在数据合成和训练中采用了系统性的设计。为了解决工具使用数据稀缺的问题,我们提出了一种通用的工具集成推理数据合成管道,该管道结合了工具集成提示与基于提示的采样方法,能够自动且可扩展地生成工具使用轨迹。随后的质量归一化和难度感知分类过程过滤掉了低质量样本,并将数据集从简单到复杂进行了组织。此外,我们提出了一种两阶段训练框架以增强多工具协作推理能力:(1) 冷启动微调,通过工具调用反馈引导LLMs探索推理模式;(2) 具有层次奖励设计的多工具自批评RL算法,强化对奖励的理解并促进有效的工具协作。实验分析表明,在超过10个具有挑战性的推理基准测试中,Tool-Star展现了其有效性和高效性。代码已发布在https://github.com/dongguanting/Tool-Star。