Command Palette
Search for a command to run...
SkillOpt:自我进化 Agent 技能的执行策略
SkillOpt:自我进化 Agent 技能的执行策略
摘要
当前代理(agent)技能多为手工设计、一次性生成,或通过松散控制的自我修订演化而来。这些方法均无法像深度学习优化器那样对技能进行优化,且在反馈下也无法可靠地超越其初始表现。我们认为,技能应作为冻结代理的外部状态进行训练,并遵循使权重空间优化具备可重复性的严格规范。SkillOpt 据我们所知,是首个系统化的、可控的文本空间代理技能优化器:一个独立的优化器模型将评分后的执行轨迹转化为对单个技能文档的有界添加/删除/替换编辑,且仅当编辑严格提升预留验证集分数时才被接受。通过文本学习率预算、被拒编辑缓冲区以及按轮次的慢速/元更新机制,SkillOpt 在保持技能训练稳定性的同时,在部署阶段无需增加任何推理时的模型调用。在六个基准测试、七个目标模型以及三种执行环境(直接聊天、Codex、Claude Code)下,SkillOpt 在所有 52 个(模型、基准、执行环境)评估单元格中表现最佳或并列第一,并优于所有单元格中来自人类、一次性大语言模型(LLM)、Trace2Skill、TextGrad、GEPA 和 EvoSkill 技能的竞争者。在 GPT-5.5 上,SkillOpt 使直接聊天中的无技能平均准确率提升 23.5 分,在 Codex 代理循环内提升 24.8 分,在 Claude Code 内提升 19.1 分。迁移实验进一步表明,经过优化的技能工件在跨模型规模、在 Codex 与 Claude Code 执行环境之间迁移,以及迁移至邻近的数学基准测试(无需进一步优化)时,仍能保持其价值。
一句话总结
SKILLOpt 将 agent 技能作为冻结模型的外部状态进行训练,通过专用优化器生成有界且由验证引导的编辑;结合文本学习率预算与拒绝编辑缓冲区,在零推理调用下实现稳定训练,最终在所有 52 个评估单元格中达到最佳或并列最佳性能,并在无需额外优化的情况下展现出强大的跨模型与跨环境迁移能力。
核心贡献
- 将 agent 技能学习形式化为对外部自然语言状态的优化,并提出 SKILLOpt,一种与执行环境无关的优化器。该优化器利用独立模型,基于评分轨迹与保留验证集分数生成有界的添加、删除与替换编辑。系统通过文本学习率预算、拒绝编辑缓冲区及按 epoch 的慢速更新机制维持训练稳定性。
- 在六个基准测试、七个目标模型及三个执行环境中评估该框架,在所有 52 个评估单元格中均取得最佳或并列最佳性能。SKILLOpt 的表现优于人工编写、单样本及 TextGrad、GEPA、EvoSkill 等先前优化基线,并在 GPT-5.5 上将平均无技能准确率提升高达 24.8 个百分点。
- 通过组件消融实验与跨模型规模、执行环境及任务领域的迁移实验验证了优化设计。结果表明,在不更新模型权重的前提下部署时,优化后的技能产物仍保持紧凑且可复用,从而确立了文本空间优化作为参数自适应的一种轻量级替代方案。
引言
随着前沿模型以 agent 形式部署,其行为适配需要超越权重更新或提示词的程序化改进,这使得 agent 技能成为在封闭或资源受限环境中实现高效领域适配的关键。现有工作依赖手工编写或松散进化的技能,缺乏可复现的优化机制,往往难以在反馈下稳定提升,也缺乏跨执行环境的泛化能力。本文提出 SKILLOpt,一种将技能文档视为外部状态的文本空间优化器。该方法利用独立模型,结合验证门控、文本学习率与拒绝编辑缓冲区提出有界编辑,从而在不增加推理开销的情况下生成紧凑且可迁移的技能产物。
数据集
- 数据集构成与来源: 作者构建了一份经过筛选的技能编辑集合,从中提取自成功轨迹,重点聚焦于能够强化现有模型行为的模式。
- 关键细节与过滤规则: 数据集采用严格的筛选标准以确保质量与泛化能力。相似模式经过去重处理,仅保留最稳健的版本。仅当编辑针对当前技能中缺失的模式时才会被纳入,且明确排除预定义标记内的内容。作者优先选取在多个成功轨迹中普遍存在的模式,并为每次合并后的编辑分配支持计数,以反映贡献源补丁的数量。
- 数据处理与元数据: 每条条目均结构化为有效的 JSON 对象,包含推理摘要与编辑列表。每条编辑记录明确指定操作类型、可选目标位置、markdown 内容、支持计数以及标记为 success 的源类型。
- 训练中的使用: 作者利用该处理后的编辑集在模型训练期间合并并强化成功的行为模式。支持计数与流行度指标指导更新的筛选与权重分配,使模型能够通过系统化应用习得新技能。
方法
SKILLOpt 框架作为一个结构化的优化循环运行,通过迭代优化基于文本的技能文档来适配冻结的目标模型,并将技能视为可复用的程序化产物。整体流程始于固定的目标模型 M 与初始技能 s0,优化过程仅聚焦于修改技能文档,同时保持模型权重不变。在每次优化步骤中,使用当前技能执行训练集划分的 rollout 批次,生成轨迹与反映任务表现的标量分数。随后,该证据由优化器模型处理,通过分层反思过程提出技能编辑。
如图所示,框架首先从 rollout 证据中分离失败与成功案例,并将其划分为小批次。优化器模型分析失败小批次以识别重复出现的程序化错误并提出修正编辑,而成功小批次则用于强化已有有效的行为。这些提议随后进行分层合并,其中由失败驱动的编辑被优先处理以解决系统性问题。合并后的编辑按预期效用排序,并裁剪至有界编辑预算 Lt,该预算充当文本学习率以控制更新幅度并防止过拟合。选定的编辑被应用以生成候选技能,随后通过保留的选择门控在验证集划分上进行评估。该门控确保仅接受改进,防止可能降低性能的未经验证的自我编辑。
优化循环还引入了按 epoch 的慢速/元更新机制以捕捉长期学习。在每个 epoch 结束时,系统对比上一 epoch 与当前 epoch 结束时技能下的相同训练任务,识别改进、退化、持续失败与稳定成功。随后,优化器模型生成简洁的纵向指导块,写入受保护的慢速更新字段,并经过相同的验证门控。该元指导用于指导未来的编辑生成与筛选,使优化器能够从更广泛的优化轨迹中学习。慢速更新受到严格管理并与主技能分离,确保部署后的技能保持紧凑与可移植。
被拒绝的更新不会被丢弃,而是存储于步骤级本地缓冲区中,供后续反思调用使用,以避免重复有害更改。整个流程设计为与执行环境无关,配备轻量级适配器接口,使同一优化流程可应用于不同的任务环境与模型架构。最终输出为经最佳验证的技能文档,可在不修改底层模型的情况下导出与部署,从而实现跨模型与跨执行环境的泛化。
实验
实验评估了 SKILLOpt,这是一种文本空间优化器,通过迭代优化紧凑的技能文档来适配冻结的语言模型,覆盖多样化的基准测试、模型规模与执行环境。消融研究验证了有界编辑预算、严格的验证门控以及按 epoch 的元更新对于防止过拟合和确保稳定的程序化学习至关重要。迁移实验进一步表明,优化后的技能可作为可复用、可解释的产物,在不同模型、工具环境及相关任务中实现有效泛化。最终,结果证实将技能文档视为可训练对象提供了一种高效且无需权重的适配策略,能够可靠地编码可迁移的程序化知识。
{"summary": "作者评估了一种文本空间优化方法,该方法基于 rollout 证据迭代优化技能产物,以改进冻结语言模型的技能。结果表明,该方法在多个基准测试与模型上均实现稳定提升,其收益由受控的编辑流程驱动,优先采纳已验证的更改而非未经验证的编辑。", "highlights": ["该优化方法在多样化的基准测试与模型规模上持续提升性能,在所有评估案例中均取得最佳或并列最佳结果。", "收益通过有界编辑流程实现,仅接受少量已验证的更改,从而生成紧凑且可解释的技能产物。", "该方法在不同执行环境中均有效,并能顺利跨模型、执行环境与基准测试进行迁移,表明所学技能编码了可复用的程序化知识。"]}
作者分析了优化流程生成的所学技能产物的特性,重点考察其紧凑性、编辑经济性与训练成本。结果表明,最终技能体积较小,所需接受编辑数量少,且每提升一个性能点所需的训练成本可量化,该成本仅在部署前产生一次。所学技能包含可泛化的程序化规则,与人类实践者编写的规范一致。优化后的技能十分紧凑,最终大小在 2,000 tokens 以内,训练期间仅需接受 1 至 4 次编辑。训练成本因基准测试而异,涉及长轨迹或多模态上下文的任务每点收益成本显著高于程序化任务。所学技能由可泛化的程序化规则构成,体现了对答案格式与证据绑定等领域的规范,而前沿模型在零样本设置下通常无法自主应用这些规范。
作者将 SKILLOpt 作为冻结语言模型的文本空间优化器进行评估,在多个基准测试、模型与执行环境中测试其性能。结果表明,SKILLOpt 始终优于或持平所有基线方法,在大模型与小模型上均观察到显著提升,尤其在程序化任务上。优化后的技能紧凑,所需接受编辑少,并能有效跨不同模型、执行环境与基准测试进行迁移。SKILLOpt 在所有评估的基准测试与目标模型中均取得最佳或并列最佳结果,优于包括人工编写与单样本 LLM 技能在内的多种基线。该方法生成紧凑的技能产物且接受编辑极少,表明收益来源于针对性的已验证改进而非大规模重写。优化后的技能在不同模型、执行环境与相关基准测试中有效迁移,展现了其可复用性与泛化能力。
实验表明,优化后的技能在不同模型、执行环境与基准测试中持续提升性能,在直接对话与工具辅助设置下均观察到收益。结果显示,在某一上下文学得的技能可有效迁移至新模型、执行环境及相关任务,表明所学知识具有可复用性且不受特定条件限制。优化后的技能成功跨模型、执行环境与基准测试迁移,所有迁移场景均获得正向收益。在单一环境中习得的技能在部署至不同执行上下文时仍表现强劲,表明其具备可迁移的程序化知识。所学技能紧凑且高效,通过少量接受编辑与极低的训练成本实现性能提升。
该表格展示了优化流程关键组件的消融结果,表明默认设置在所有基准测试中均持续取得最高性能。引入拒绝编辑缓冲区与慢速/元更新机制带来显著改进,而学习率形式的调整对结果影响相对有限。默认学习率形式在所有基准测试中均取得最佳或次佳结果。移除拒绝编辑缓冲区会导致性能大幅下降,尤其在 SpreadsheetBench 与 LiveMath 上。慢速/元更新机制有助于提升结果,其缺失会在 SpreadsheetBench 上造成最大程度的性能退化。
评估在多样化基准测试、模型规模与执行环境中测试 SKILLOpt,以验证其性能收益与跨上下文迁移能力,同时消融研究隔离了拒绝编辑缓冲区与元更新等关键优化组件的贡献。结果表明,该方法通过高度选择性且经过验证的编辑,持续生成紧凑、可解释的技能产物,从而增强冻结语言模型的能力。定性分析揭示,这些优化技能编码了可泛化的程序化知识,例如规范的答案格式与证据绑定,其表现稳定优于基线方法。最终,实验证实所学专业知识能够稳健地跨不同模型与环境迁移,凸显了该方法在部署可复用程序化能力方面的高效性与实用价值。