Command Palette

Search for a command to run...

13 天前

LoopTool:用于鲁棒LLM工具调用的数据-训练闭环

Kangning Zhang Wenxiang Jiao Kounianhua Du Yuan Lu Weiwen Liu Weinan Zhang Lei Zhang Yong Yu

LoopTool:用于鲁棒LLM工具调用的数据-训练闭环

摘要

通过引入外部工具,大型语言模型(LLMs)能够执行复杂的多步骤任务。然而,工具学习受限于静态的合成数据流水线——数据生成与模型训练作为两个独立且非交互的过程分别进行。这种方法无法动态聚焦于模型的具体薄弱环节,且允许噪声标签持续存在,从而降低训练效率。为此,我们提出LoopTool,一种完全自动化、模型感知的数据演化框架,通过紧密集成数据合成与模型训练,实现了闭环优化。LoopTool通过三个协同工作的模块,迭代地优化数据与模型:(1)贪婪能力探测(Greedy Capability Probing, GCP)用于诊断模型已掌握与未能掌握的能力;(2)判断引导的标签验证(Judgement-Guided Label Verification, JGLV)利用开源评判模型识别并修正标注错误,逐步净化数据集;(3)错误驱动的数据扩展(Error-Driven Data Expansion, EDDE)基于识别出的失败案例生成新的、更具挑战性的样本。该闭环流程运行在一个成本低廉、开源的生态系统中,无需依赖昂贵的闭源API。实验结果表明,使用LoopTool训练的8B模型显著优于其32B数据生成器,并在同规模模型中于BFCL-v3与ACEBench基准测试上达到新的最先进水平。本研究证明,闭环、自我优化的数据流水线能够显著提升大型语言模型的工具使用能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供