HyperAIHyperAI

Command Palette

Search for a command to run...

2 天前
Agent
LLM

从技能到人才:组织异质代理作为真实世界的公司

Zhengxu Yu Yu Fu Zhiyuan He Yuxuan Huang Lee Ka Yiu Meng Fang Weilin Luo Jun Wang

摘要

尽管通过模块化技能和工具集成,单个 agent 的能力迅速提升,但多 agent 系统仍受制于固定的团队结构、高度耦合的协调逻辑以及仅限于会话的学习机制。我们认为,这反映了一种更深层的缺失:缺乏一个原则性的组织层,以规范 agent 工作队的组建、治理及随时间的演进,且该层面应与单个 agent 所掌握的知识相解耦。为填补这一空白,我们引入了 OneManCompany (OMC),这是一个将多 agent 系统提升至组织层面的框架。OMC 将技能、工具和运行时配置封装为可移植的 agent 身份,称为 Talents,并通过抽象异构后端的类型化组织接口进行编排。一个由社区驱动的 Talent Market 支持按需招聘,使组织能够在执行过程中动态弥补能力缺口并进行自我重组。组织决策通过 Explore-Execute-Review (E2\text{E}^2E2R) 树搜索得以具体化,该机制在一个单一的层级循环中统一了规划、执行与评估:任务自上而下分解为可问责的单元,执行结果自下而上汇总以驱动系统的审查与优化。该循环在终止性和无死锁方面提供了形式化保证,同时模仿了人类企业的反馈机制。综上所述,这些贡献将多 agent 系统从静态的、预配置的流水线转变为自组织和自改进的 AI 组织,使其能够适应跨不同领域的开放性任务。在 PRDBench 上的实证评估表明,OMC 实现了 84.67%84.67\%84.67% 的成功率,比当前最先进水平高出 15.4815.4815.48 个百分点;跨领域案例研究进一步验证了其通用性。

一句话总结

作者提出了 OneManCompany (OMC),这是一个多 agent 框架,通过可移植的 Talent 和动态 Talent Market 将组织治理与个体能力解耦,同时利用探索-执行-审查(Explore-Execute-Review, E²R)树搜索来统一分层规划与评估,最终在 PRDBench 上取得了 84.67% 的成功率,比当前最佳水平高出 15.48 个百分点。

核心贡献

  • 该框架引入了 Talent-Container 架构,通过六种类型的组织接口将可移植的 agent 身份与异构执行后端解耦。该设计通过社区驱动的 Talent Market 实现动态人员组建,按需配置经过验证的 agent。
  • 项目执行通过 Explore-Execute-Review 树搜索实现,统一了分层任务分解、agent 协调与结果评估。基于 DAG 的任务结构结合 AND-tree 语义与有限状态机,在迭代优化组织策略的同时,为终止性和无死锁提供了形式化保证。
  • 组织优化通过结构化反馈流水线实现自动化,根据绩效审查更新 agent 的工作原则与标准操作程序。在 PRDBench 基准上的定量评估显示成功率为 84.67%,超越当前最先进的基线 15.48 个百分点。

引言

在软件开发与复杂自动化场景中,扩展 AI 协作能力至关重要,但当前的多 agent 系统仍面临团队结构脆弱、运行时不兼容及临时协调困难等问题。这些系统缺乏统一组织层来将人员结构与其个体能力分离,导致难以可靠地泛化至开放式项目。为弥补这一空白,作者提出了 OneManCompany,这是一个开源框架,通过解耦的 talent 与 container 架构、用于结构化任务分解的动态树搜索,以及用于 agent 与组织自我演进的持续反馈循环,形式化了 AI 组织设计。该方法使异构 agent 能够被自动招募、协调并随时间推移不断优化,借鉴人类企业的运作原则来应对复杂、跨领域的工作流。

数据集

  • 数据集构成与来源: 作者采用 PRDBench,这是一个包含 50 个项目级任务的数据集,涵盖 20 多个不同的软件开发领域。每个任务均源自结构化的产品需求文档,并辅以辅助数据、完整的测试计划及可执行的评估脚本。

  • 子集详情: 该集合作为一个统一的 50 个任务集合运行,无正式子组。每个任务均经过设计以模拟高度动态的 agent 工作流,这意味着团队结构、运行时环境、任务分解及执行序列在 agent 开始处理前均被刻意隐藏。

  • 数据使用与处理: 作者仅将该数据集用于评估 OMC 框架。未对数据进行训练划分或应用混合比例,而是利用完整基准来衡量需求解析、分层分解及多 agent 协调的端到端能力。

  • 工作流与评估机制: 作者依赖内置的可执行脚本与预定义评估标准来自动化性能测量。未描述任何裁剪策略或元数据构建流水线,因为该基准优先采用动态执行轨迹与脚本驱动的验证,以捕捉真实的开发约束条件。

方法

OneManCompany (OMC) 框架旨在将多 agent 系统建模为自组织与自我改进的组织,其结构围绕三大核心支柱展开:组织管理、项目执行与组织演进。该架构的基础是 Employee 概念,由可移植的 Talent 与 Container 组成。Talent 封装了 agent 的认知身份,包括其角色、技能、工具与指导原则,而 Container 提供运行时环境及 agent 与组织层交互的正式接口。该 Talent-Container 架构实现了 agent 能力与其执行后端的解耦,允许异构 agent(如基于 LangGraph、Claude Code 或脚本驱动的执行器)在同一组织内共存并统一管理。Container 托管 agent 运行时,并提供六种类型的组织接口:Execution、Task、Event、Storage、Context 与 Lifecycle,这些接口标准化了 agent 与平台的交互,并确保策略执行、隔离性与可扩展性。组织层充当统一抽象层,类似于操作系统内核,为多样化的硬件与 agent 后端提供一致接口,如图表所示。

Talent Market 充当社区驱动的 agent 市场,支持按需招募经过验证且基准测试通过的 agent 包。这些 Talent 是完整且即插即用的 agent 包,包含系统提示词、角色定义、工具配置、技能脚本与领域知识,且与任何特定 Container 解耦。市场支持三种来源渠道:来自开源仓库的社区贡献 Talent、针对冷启动领域由 AI 从网络推荐组装的技能组合,以及内部高绩效员工的晋升。当项目需要当前人员不具备的能力时,HR agent 会查询 Talent Market,根据技能匹配度与社区评分生成排名靠前的候选名单,并提交给 CEO 审批。选定后,系统自动配置 Container、分配工位、设置工具访问权限并注册新员工,从而实现无需手动设置的动态团队组建。

项目执行由 Explore-Execute-Review (E²R) 树搜索主导,这是一种分层循环机制,自上而下将任务分解为责任单元,并自下而上聚合结果以驱动优化。E²R 在动态搜索树 T=(V,Etree,Edep)\mathcal{T} = (V, E_{\text{tree}}, E_{\text{dep}})T=(V,Etree,Edep) 上运行,其中节点表示决策点处的组织状态,携带任务描述、分配的员工、状态、结果与成本等属性。树通过五种操作类型生长:decompose(添加子任务)、assign(将员工绑定至叶节点)、recruit(雇佣新员工)、review(接受或拒绝结果)与 iterate(创建新的根层级策略)。策略 π(T)\pi(\mathcal{T})π(T) 为当前决策点选择方案,决定如何分解任务及分配对象。探索阶段选择策略,执行阶段落实计划,审查阶段评估结果并生成自下而上传播的质量信号。此接受或重新分解的循环将持续至根节点解决或熔断器触发。

E²R 树搜索辅以基于 DAG 的执行层以确保任务可靠完成。任务树通过依赖边 EdepE_{\text{dep}}Edep 进行增强,形成必须在插入时强制保持无环的 DAG。当节点 vvv 的依赖约束得到满足时(即所有前驱节点均处于 ACCEPTED 或 FINISHED 状态),该节点变为可执行状态。调度器以 FIFO 顺序选择就绪节点,并遵守互斥不变量,确保任何员工同一时间仅运行一项任务。任务生命周期由有限状态机管理,状态包括 PENDING、PROCESSING、COMPLETED、ACCEPTED、FAILED 与 FINISHED。一项关键的结构化保证是 AND-semantics:仅当所有子节点均被解决时,父节点才算解决,从而确保项目完成是子任务完成的衍生属性。这种自下而上的传播机制防止了静默停滞,并确保任何任务都不会被无声丢弃。系统还通过熔断器实现有界理性,包括审查次数限制、任务超时与成本预算,保证每次搜索过程均在有限时间与成本内终止。

组织演进通过个体与组织学习机制的结合来实现。在个体层面,agent 维护包含进度日志与总结性工作原则的持久化档案。每次与 CEO 一对一沟通后,agent 会进行结构化自我反思以更新原则,任务完成后则执行任务后审查以更新日志。这些更新会修改 agent 的 Talent 工件,实现无需重新训练的持续改进。在组织层面,会开展项目复盘,员工提交自我评估,COO 将结果汇总为个人反馈与组织标准操作程序(SOP),并注入未来的 agent 上下文中。正式绩效审查流水线确保问责制:每三个项目周期,HR agent 启动一次审查,连续三次审查未通过的员工将进入绩效改进计划,第四次未通过则触发离职流程。该生命周期管理在 Talent Market 与组织演进之间形成闭环,确保低效 agent 被替换,高效 agent 得到持续优化。

实验

评估将标准化软件开发基准与四个跨领域案例研究相结合,以验证系统在自主、项目级编排方面的能力。测试表明,动态任务分解、强制质量关卡以及跨异构模型家族的无缝协调,能够在无需特定领域配置的情况下实现可靠执行。软件工程、游戏开发、多媒体制作与学术研究等领域的定性分析凸显了该框架在支持迭代人类反馈与跨模态协作方面的有效性。最终结果表明,组织架构能够成功扩展 AI agent 团队协作规模,以处理多样化、复杂的工作流,同时保持适应性与输出正确性。

作者提出了一种多 agent 系统,从不同模型家族招募专用 agent,以执行涵盖软件开发、游戏开发、音视频制作与学术研究的复杂任务。该系统采用带有审查关卡与协同执行的动态任务分解方法,实现了高成功率,并展现出跨领域的适应性。结果显示,系统因协调机制产生了一定的成本开销,但对于需要高精度的复杂任务而言,该开销是合理的。系统通过动态分解任务并强制执行审查关卡以防止错误传播,从而获得高成功率。系统招募不同模型家族的 agent,实现了跨模态与跨领域协调。多 agent 协调带来的成本开销对于复杂的项目级任务是合理的。

作者从设计范式、执行模型与组织演进等多个维度将 OMC 与现有系统进行了对比。结果表明,OMC 凭借支持多家族 agent 协调与动态组织演进而脱颖而出,而其他系统多依赖固定架构或缺乏自我演进能力。该表格突出了 OMC 按需组织与灵活 agent 招募的独特结合。OMC 支持多家族 agent 协调与动态组织演进,这是其他系统所不具备的。OMC 采用带有类型接口的按需组织范式,与基线系统使用的顺序或分布式模型不同。其他系统缺乏自我演进能力并依赖固定的 agent 来源,而 OMC 实现了从市场中动态招募人才。

作者在一个软件开发基准上对比了各种 agent 系统的性能,评估了成功率与成本。结果显示,提出的多 agent 方法取得了最高成功率,但产生了显著的成本开销,这反映了跨专用 agent 协同执行带来的负担。与所有基线方法相比,该多 agent 系统实现了最高成功率。所提方法比其他系统消耗更多资源,表明协调过程需要更高的资源投入。相较于表现最佳的基线,成功率的提升幅度显著,证明了有效性的增强。

评估涵盖了软件、游戏与媒体开发领域的复杂跨领域项目,并与成熟的 agent 框架进行了基准对比。这些实验验证了系统动态分解任务、协调不同家族的专用模型,以及通过结构化审查关卡实施质量控制的能力。对比分析证实,所提架构通过支持灵活、按需的组织演进与无缝的跨模态协调,超越了固定基线系统。最终结果表明,尽管多 agent 协调增加了计算开销,但适应性与成功率的显著提升足以证明其在复杂项目级应用中进行权衡的合理性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供