Command Palette
Search for a command to run...
Trace2Skill:将轨迹局部经验蒸馏为可迁移的 Agent 技能
Trace2Skill:将轨迹局部经验蒸馏为可迁移的 Agent 技能
Jingwei Ni Yihao Liu Xinpeng Liu Yutao Sun Mengyu Zhou Pengyu Cheng Dexin Wang Xiaoxi Jiang Guanjun Jiang
摘要
为大型语言模型(LLM)智能体赋予领域特定技能,对于应对复杂任务至关重要。然而,人工编写技能存在严重的可扩展性瓶颈。相比之下,自动化技能生成往往产生脆弱或碎片化的结果,原因在于其要么依赖浅层的参数化知识,要么在序列处理中过度拟合于不可泛化的轨迹局部经验。为此,我们提出 Trace2Skill 框架,该框架模拟人类专家编写技能的方式:在将经验提炼为单一、全面的指南之前,先对广泛的执行经验进行整体分析。不同于对单个轨迹进行顺序式反应,Trace2Skill 调度一组并行子智能体,对多样化的执行池进行分析。它通过归纳推理,提取特定于轨迹的经验教训,并将其分层整合为一个统一且无冲突的技能目录。Trace2Skill 既支持深化现有的人工编写技能,也支持从零开始创建新技能。在电子表格、视觉问答(VisionQA)和数学推理等具有挑战性的领域进行的实验表明,Trace2Skill 显著优于包括 Anthropic 官方 xlsx 技能在内的强基线方法。关键在于,这种基于轨迹的演化过程并非简单记忆任务实例或模型特有的偏差:演化后的技能能够在不同规模的 LLM 之间迁移,并泛化至分布外(OOD)场景。例如,由 Qwen3.5-35B 基于其自身轨迹演化出的技能,在 WikiTableQuestions 任务上将 Qwen3.5-122B 智能体的性能提升了高达 57.65 个百分点。最终,我们的结果表明,复杂的智能体经验可以被封装为高度可迁移的声明式技能——无需更新参数,无需外部检索模块,且仅需使用参数量小至 35B 的开源模型即可实现。
一句话总结
来自阿里巴巴、苏黎世联邦理工学院(ETH Zurich)和北京大学的研究人员提出了 Trace2Skill,这是一个通过并行化子代理对执行轨迹进行分析的框架,旨在将碎片化的经验提炼为统一且可迁移的技能。该框架在电子表格、数学和视觉任务中均优于顺序在线更新和基于检索的基线方法,且无需进行参数更新。
主要贡献
- 本文介绍了 Trace2Skill,该框架调度并行子代理集群分析多样化的执行轨迹,并通过归纳推理,将特定于轨迹的经验分层整合为一个统一且无冲突的技能目录。
- 本研究表明,通过整体并行分析演化出的技能在不同大语言模型(LLM)规模间具有有效的迁移性,并能泛化到分布外(out-of-distribution)场景。例如,利用由 35B 模型生成的技能,可将 122B 代理的性能提升高达 57.65 个百分点。
- 实验结果证实,所提出的并行整合方法在无需参数更新或外部检索模块的情况下,其表现优于在线顺序编辑和基于检索的经验库。
引言
为大语言模型(LLM)代理配备特定领域的技能对于处理复杂任务至关重要,然而人工创建存在可扩展性瓶颈,而自动化方法由于依赖浅层参数知识或对孤立轨迹经验的顺序过拟合,往往产生脆弱的结果。先前的方法通常随着新数据的到来顺序更新技能,或依赖基于检索的记忆库,这导致技能集合碎片化,且在不同模型规模或分布外场景下的泛化能力较差。作者提出了 Trace2Skill,该框架通过并行分析多样化的执行轨迹池,模拟人类专家经验,将特定于轨迹的经验提炼为单一、全面且无冲突的技能目录。这种方法利用归纳推理创建可迁移的声明式技能,在无需参数更新或外部检索模块的情况下,提升了不同 LLM 规模和任务领域的性能。
数据集
-
数据集构成与来源:作者构建了一个包含 323 个地图片段(map patches)的数据集,这些片段源自在 SpreadsheetBench-Verified 基准测试上运行的 122B 参数模型。这些片段捕捉了从代理轨迹中提炼出的标准操作程序(SoPs),其中四个最普遍的主题占据了引用量的大部分。
-
关键子集详情:
- 公式重算与验证:178 个片段专注于运行重算脚本,并以
data_only=True重新打开文件,以防止单元格数据过时。 - 工具选择:177 个片段主张使用 openpyxl 进行回写操作,而不是
pandas.toexcel(),以保留公式关系和命名范围。 - 显式回读验证:138 个片段强调在提交前重新打开输出文件以确认目标单元格的值。
- 结构编辑安全性:53 个片段解决了安全删除行的实践,例如按降序删除以及复制输入工作簿以防止索引偏移导致的损坏。
- 小众特性:支持度较低的观察结果被路由到 13 个补充参考文件中,而不是主技能文档,以处理诸如单元格颜色提取或特定业务逻辑不匹配等边缘情况。
- 公式重算与验证:178 个片段专注于运行重算脚本,并以
-
模型使用与处理:该流程自动从轨迹证据中恢复分层技能结构,无需人工策划。通用的过程指导流入主
SKILL.md文件,而特定于案例的规则则填充到参考目录中。这种分层结构反映了既定的技能设计实践,即将通用工作流规则与不常见的边缘情况分离开来。 -
片段生成与整合:单个错误分析器为单一轨迹生成结构化片段,例如识别代理删除指定范围外行的失败情况。这 323 个独立片段经过四级分层合并过程,生成最终的整合片段,其中编码了针对行和列操作的稳健安全检查与验证步骤。
实验
- 电子表格实验验证,提炼基于轨迹的技能显著优于人工编写的先验知识和单纯的参数知识,其中由错误驱动的分析在分布内和分布外任务中提供了最可靠的改进。
- 数学推理评估证实,技能合成方法不仅适用于电子表格,还能泛化到竞赛级问题,展示了跨不同模型规模有效迁移的领域无关能力。
- 视觉问答结果揭示了任务执行与技能编写之间的解耦现象,表明模型在基准测试中表现良好,并不能保证具备分析失败并生成可迁移技能所需的反思能力。
- 演化策略的比较表明,并行整合错误经验比顺序编辑能产生更高质量和更高效率的结果,因为它能防止上下文漂移并支持同时进行的归纳推理。
- 与基于检索的记忆系统的基准测试表明,将观察结果提炼为紧凑的技能文档优于基于情节的检索,因为它避免了对表面级查询相似性的敏感性,并将指导直接集成到系统提示中。
- 关于错误分析方法的消融研究证明,具有工件访问和修复验证的代理循环比单次调用的 LLM 分析能产生更具可迁移性的片段,后者往往错误识别根本原因并幻觉出失败机制。