HyperAIHyperAI

Command Palette

Search for a command to run...

SkillClaw:通过 Agentic Evolver 实现技能的集体进化

Ziyu Ma Shidong Yang Yuxiang Ji Xucong Wang Yong Wang Yiming Hu Tongwen Huang Xiangxiang Chu

摘要

像 OpenClaw 这样的 Large Language Model (LLM) agent 依赖于可重用的技能来执行复杂任务,然而这些技能在部署后很大程度上仍处于静态状态。因此,不同的用户在处理任务时,往往会重复发现相似的工作流、工具使用模式以及失败模式,这阻碍了系统通过经验进行自我演进的能力。虽然来自不同用户的交互可以为技能在何时有效或失效提供互补的信号,但现有系统缺乏一种将这种异构经验(heterogeneous experiences)转化为可靠技能更新的机制。为了解决这些问题,我们提出了 SkillClaw,这是一个用于多用户 agent 生态系统中集体技能演进(collective skill evolution)的框架。该框架将跨用户及跨时间的交互视为改进技能的核心信号。SkillClaw 能够持续聚合使用过程中产生的轨迹(trajectories),并利用一个自主演进器(autonomous evolver)对其进行处理;该演进器能够识别重复出现的行为模式,并通过优化现有技能或通过新增能力来扩展技能集,从而将这些模式转化为技能更新。由此产生的技能会被维护在一个共享仓库中,并在用户之间进行同步,从而使在某一特定场景下发现的改进能够传播至整个系统,且无需用户投入额外精力。通过将多用户经验整合到持续的技能更新中,SkillClaw 实现了跨用户的知识迁移和能力的累积提升。在 WildClawBench 上的实验表明,即使在交互和反馈有限的情况下,SkillClaw 也能显著提升 Qwen3-Max 在真实世界 agent 场景中的性能表现。

一句话总结

SkillClaw 是一个用于多用户 Agent 生态系统中集体技能进化的框架,它利用一个自主的 evolver 将异构的交互轨迹转化为精炼或扩展的技能,从而实现全系统的知识迁移和能力的累积提升,显著增强了 Qwen3-Max 在 WildClawBench 上的表现。

核心贡献

  • 本文介绍了 SkillClaw,这是一个专为多用户 Agent 生态系统内的集体技能进化而设计的框架。该框架能够将交互轨迹持续转化为共享证据,以促进全系统的能力增长。
  • 该方法利用一个自主的 evolver,从聚合的用户数据中识别重复的行为模式,从而精炼现有技能或创建新技能。这一过程允许在单一上下文中发现的改进通过共享仓库传播给所有用户。
  • 在 WildClawBench 基准测试上进行的实验表明,即使在仅提供有限交互和反馈的情况下,SkillClaw 也能显著提高 Qwen3-Max 模型在真实 Agent 场景中的性能。

引言

大语言模型 (LLM) Agent 依赖可重用的技能来执行复杂的、多步骤的工作流。虽然这些技能对于协调工具和推理至关重要,但目前的技能库在部署后很大程度上仍处于静态状态。现有方法通常侧重于局部记忆或单个会话的精炼,这导致一个用户发现的改进无法使其他用户受益。这种集体机制的缺失意味着类似的失败和成功的变通方法会在不同用户之间被重复发现,阻碍了系统级的能力增长。

作者利用名为 SkillClaw 的框架,在多用户 Agent 生态系统中实现集体技能进化。SkillClaw 持续聚合来自不同用户的交互轨迹,以创建包含成功模式和重复失败模式的共享证据库。随后,一个自主的 agentic evolver 通过开放式推理分析这些聚合数据,以精炼现有技能或创建新技能。通过在共享仓库中同步这些更新,该框架允许在单一上下文中发现的改进在全系统范围内传播,将个人经验转化为累积智能。

数据集

Dataset overview
Dataset overview

作者利用一个以 WildClawBench 为核心的专门数据框架和一个结构化的 agent 会话仓库来驱动技能进化。数据集的组成和处理细节如下:

  • 基准测试来源:评估基于 WildClawBench,这是一个包含 60 个复杂任务的真实 Agent 基准测试。这些任务分布在六个能力领域,包括生产力工作流、代码执行、社交互动、检索、创意生成和安全对齐。
  • 会话数据组成:数据集包括预处理过的 agent 会话 JSON 文件。每个会话包含一个唯一标识符、相关的任务 ID、交互轮数以及聚合统计数据,如平均 ORM 分数、成功或失败计数以及稳定性指标。
  • 数据处理与元数据
    • 轨迹截断:为了保持紧凑性,逐步轨迹被截断为每个字段约 400 个字符。这些轨迹包括技能使用、工具调用参数、结果以及 PRM/ORM 分数。
    • 分析摘要:每个会话都附加了一个由 LLM 生成的摘要(8 到 15 句),详细说明了 Agent 的策略、工具使用模式和技能有效性。
    • 技能历史构建:作者为每个技能维护了版本化的历史记录。这包括技能文档 (SKILL.md) 的快照以及相应的证据文件,这些文件将特定的会话反馈与随后的技能迭代联系起来。
  • 在技能进化中的使用:数据在 Agentic Evolve Prompt 框架内使用。系统分析会话日志,特别关注重复的工具失败、具有代表性的 PRM 分数和相关的任务 ID,以驱动技能库的迭代精炼。

方法

作者利用一个多阶段框架,在独立运行的 Agent 之间实现集体技能进化,形成了一个闭环系统,将孤立的交互会话转化为共享的、不断进化的技能仓库。该架构的核心是 SkillClaw 系统,它通过一个中心化的进化引擎运行,定期处理来自所有 Agent 的交互数据。每个 Agent 在完成任务后,会记录其完整的交互会话(包括用户 prompt、Agent 的动作(包括工具调用)、中间反馈和最终响应),并将其作为结构化证据上传。这些证据随后根据每个会话中引用的技能进行聚合和分组,从而实现对不同条件下技能表现的跨用户分析。系统的整体工作流程分为四个主要阶段:交互、证据收集、进化和同步,形成一个持续的循环,其中更新后的技能为未来的交互提供信息并产生新的证据。

System Architecture Overview
System Architecture Overview

该框架的核心组件是 agentic evolver,这是一个在 agent harness 中运行的基于 LLM 的 Agent。该 harness 为 evolver 提供结构化输入——分组的会话证据、当前的技能定义以及一组允许的进化动作——而不限制其推理。evolver 分析技能的成功和失败执行情况以诊断根本原因,然后从三种动作中选择一种:精炼 (refine)、创建 (create) 或跳过 (skip)。对于精炼,evolver 会提出有针对性的编辑以纠正识别出的错误或提高鲁棒性,并遵循保守的编辑原则,即保留原始技能结构,仅修改证据表明存在缺陷的部分。对于创建,evolver 会识别现有技能未涵盖的、重复且可重用的程序,并生成新技能,确保其具有独特用途并压缩特定环境的知识。当证据不足以证明修改的合理性时,则采取跳过动作。这种对成功和失败模式的联合分析确保了进化的累积性,在纠正失败的同时保留了经过验证的行为。

Agentic Evolver Workflow
Agentic Evolver Workflow

在 evolver 生成候选更新后,严谨的验证过程确保只有改进方案会被部署。在夜间,候选技能会在真实的部署环境中进行评估,使用与原始会话相同的工具链和任务上下文。系统会执行原始版本和进化版本,并根据任务成功率和执行稳定性对结果进行比较。只有那些能够显著提高性能的更新才会被接受并合并到共享仓库中。这一验证步骤强制执行单调部署策略,防止性能退化,并确保用户始终与经过最佳验证的技能进行交互。更新后的仓库随后会同步回所有 Agent,完成进化循环,使系统能够在不需要显式协调或人工干预的情况下从集体用户经验中获益。

实验

实验采用了一种连续的昼夜闭环设置,即 Agent 在白天与用户交互,在夜间进行技能进化和验证。这一过程验证了对共享技能池进行夜间更新是否可以逐步解决特定任务的瓶颈并提高系统稳定性。研究结果表明,技能进化在不同类别中遵循异构的轨迹,成功地将原始的执行模式转化为结构化、可靠且具备环境感知能力的工作流。总体而言,该系统展示了巩固程序性知识的强大能力,有效地解决了与输入可靠性、多模态流水线组织以及现实执行约束相关的失败问题。

实验显示,在六天时间里,四个类别的性能表现持续提升,每个类别在初始增长后趋于稳定。结果表明,系统通过整合经过验证的技能更新来实现进化,从而增强了在社交互动、搜索、创意和安全等领域的面向用户的能力。所有类别的性能在第 2 天均显著提升,此后保持稳定。社交互动表现出早期且剧烈的增长,随后性能保持稳定。创意合成以及安全与对齐表现出显著的早期改进,随后趋于稳定。

User-side daytime results
User-side daytime results

该表展示了经过一轮技能进化后,在三个自定义查询中的性能增益。结果显示基准性能有显著提升,其中在基础提取和保存报告任务中观察到的增益最大。在涉及程序性知识缺口的任务中,性能提升最为明显。所有查询的平均增益超过 40%,表明技能进化的持续有效性。保存报告任务在进化后达到了完美分数,突显了对特定环境失败问题的解决。

Controlled validation results
Controlled validation results

评估通过各种功能类别和特定任务查询来跟踪系统性能,以验证技能进化的有效性。结果表明,整合经过验证的技能更新可以带来社交互动、创意和安全方面的持续改进,特别是在解决程序性知识缺口的任务中增益显著。总体而言,该系统展示了快速进化和稳定的能力,成功解决了特定的环境失败问题,并增强了通用的面向用户能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供