HyperAIHyperAI

Command Palette

Search for a command to run...

SkillNet:构建、评估与连接 AI 技能

摘要

当前的 AI 智能体虽已具备灵活调用工具及执行复杂任务的能力,但其长期演进仍受限于技能缺乏系统性的积累与迁移机制。在缺乏统一技能固化机制的情况下,智能体往往陷入“重复造轮子”的困境:它们在不同孤立情境中反复重新发现解决方案,却无法有效复用既有策略。为突破这一瓶颈,我们提出了 SkillNet——一个旨在大规模创建、评估与组织 AI 技能的开放基础设施。SkillNet 基于统一的本体论构建技能体系,支持从异构来源生成技能、建立丰富的关联关系,并在安全性、完整性、可执行性、可维护性及成本感知等多个维度进行综合评估。该基础设施集成了包含逾 20 万个技能的技能库、交互式平台以及功能完备的 Python 工具包。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试中的实验结果表明,SkillNet 显著提升了智能体性能:在多种骨干模型下,平均奖励提升 40%,执行步数减少 30%。通过将技能形式化为可演进、可组合的资产,SkillNet 为智能体从瞬时经验迈向持久掌握奠定了坚实基础。

一句话总结

浙江大学与主要行业合作伙伴的研究人员推出了 SkillNet,这是一个开放基础设施,将超过 20 万项 AI 技能统一到一个结构化的本体中。该系统实现了技能的系统化整合与多维度评估,通过避免重复学习,显著提升了智能体在复杂任务环境中的性能。

主要贡献

  • SkillNet 基于统一的本体论构建技能体系,支持从异构来源生成技能、建立丰富的关联关系,并在安全性、完整性、可执行性、可维护性及成本感知等多个维度进行综合评估。
  • SkillNet 通过引入一个拥有统一本体的开放基础设施来解决这一问题,该本体组织了超过 20 万项技能,并从安全性、完整性和可执行性等五个维度对其进行评估。
  • 在 ALFWorld、WebShop 和 ScienceWorld 上的实验结果表明,SkillNet 在多种骨干模型上将智能体的平均奖励提高了 40%,并将执行步骤减少了 30%。

引言

随着 AI 智能体进化以处理复杂、长视野的任务,其进展目前因无法系统地积累和迁移技能而停滞,迫使它们在孤立的情境中反复重新发现解决方案。先前的方法依赖于人工工程或临时的上下文学习,而现有的技能库则存在静态策展、缺乏严格质量控制以及组合性差等问题,阻碍了可扩展的复用。为了解决这些差距,作者推出了 SkillNet,这是一个开放基础设施,它将超过 20 万项技能构建成一个具有丰富关系连接的统一本体,并包含涵盖安全性、可执行性和成本的多维度评估框架。该系统将碎片化的经验转化为持久、可组合的资产,使智能体能够通过利用累积学习的坚实基础,而非通过试错,来实现显著的性能提升。

数据集

  • 数据集构成与来源:作者通过聚合来自四个主要来源的异构数据构建了一个多功能的技能库:执行轨迹和对话日志、开源 GitHub 仓库、半结构化文档(PDF、PowerPoint、Word)以及直接的自然语言用户提示。

  • 各子集的关键细节:初始池包含超过 20 万个候选技能,这些技能源自开放互联网资源、自动化管道和社区贡献。经过严格的多阶段过滤和评估流程,最终筛选出超过 15 万个高质量技能,且该库正在不断扩展。

  • 数据使用与处理:作者采用由大型语言模型(LLM)驱动的完全自动化管道,将原始输入转换为可复用的结构化智能体技能。用户可以定制底层模型,系统支持通过开放资源和社区提交进行持续扩展。

  • 质量保证与元数据:为确保可靠性,团队实施了涵盖五个维度的自动化检查:安全性、完整性、可执行性、可维护性和成本意识。他们还通过随机抽样进行定期人工审计,并利用数据分析技能关系,揭示依赖关系、层次化组合和功能相似性。

方法

作者提出了 SkillNet,这是一个综合框架,旨在将碎片化的智能体经验和人类知识转化为可复用、可验证的技能实体。该系统通过一个涵盖技能创建、评估和组织的系统化管道运行,以支持可扩展且可靠的能力增长。请参阅框架图以了解端到端架构。

该框架始于技能创建,系统分析包括用户轨迹、文档、GitHub 项目和直接提示在内的多样化输入以生成新技能。这些生成的技能经过严格的技能过滤流程,包括去重、分类和多维度评估机制。评估维度包括安全性、完整性、可执行性、可维护性和成本意识。只有通过这些检查的高质量技能才会被纳入库中,确保系统作为一个自我演进的生态系统运行,而非静态集合。

为了管理不断增长的库,SkillNet 采用了结构化的本体。如下图所示,该本体分为三个渐进层。

顶层是技能分类法,将技能划分为开发、AIGC 和科学等广泛领域,并进一步通过细粒度标签进行细化。中间层是技能关系图,使用 similar_to(相似于)、compose_with(与...组合)、belong_to(属于)和 depend_on(依赖)等关系来建模技能间的依赖和语义关联。底层是技能包库,将单个技能分组为面向任务的模块化捆绑包以供部署。

除了孤立的技能创建外,该系统还包括一个技能分析模块,可自动发现并建模技能之间的结构关系。这支持了对大型技能库的全局推理,并支持技能检索和工作流合成等高级下游应用。在实际场景中,如自主科学发现或编程,该系统将用户任务分解为可操作的步骤。请参阅实际应用示例以了解技能应用和评估的具体实例。

例如,在科学工作流中,智能体调度数据处理技能,随后进行机制分析和目标验证。系统提供详细的技能卡片,如 kegg-databasecomponent-refactoring,其中包含元数据和质量分数,以指导智能体的选择和执行。这种结构化方法使智能体能够通过将专业技能组织成连贯的工作流,从而弥合高层用户意图与可执行行动之间的差距。

实验

  • 建立了一个多维度评估框架,以评估技能在安全性、完整性、可执行性、可维护性和成本意识方面的可靠性,证实了基于 LLM 的自动化评估器与人类专家判断几乎完美一致。
  • 在三个模拟环境(ALFWorld、WebShop 和 ScienceWorld)中的实验表明,集成 SkillNet 显著优于 ReAct 和 Few-Shot 等基线方法,使智能体能够以更少的交互步骤更可靠地解决任务。
  • 结果验证了 SkillNet 有效地将碎片化经验转化为可复用的过程抽象,在不同规模的模型上提供了稳健的性能提升,并确保了对已见和未见任务的强泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供