Command Palette
Search for a command to run...
Agent Harness 综述
Agent Harness 综述
摘要
大型语言模型(LLM)智能体在大规模生产环境中的快速部署揭示了一种 recurring pattern( recurring pattern 可译为“反复出现的模式”或“普遍现象”,结合语境,这里采用“普遍现象”):任务执行的可靠性更多取决于封装底层模型的中间件层——即智能体执行框架(Agent Execution Harness),而非底层模型本身。本综述基于实践,对智能体框架工程进行了系统性梳理,围绕以下三个核心论点展开。首先,智能体框架作为一个独立系统层级,其工程质量在很大程度上决定了现实世界中的可靠性。我们通过三个阶段的工程演进论证了这一观点:从提示词工程(Prompt Engineering)到上下文工程(Context Engineering),再到框架工程(Harness Engineering)。此外,本文还通过跨层综合分析,探讨了“成本-质量-速度”的不可能三角、能力与控制之间的权衡,以及框架耦合问题,并基于研究空白与生产环境中的痛点,提出了一个开放性问题议程。其次,我们提出了 ETCLOVG 框架,这是一种七层分类体系,包含:执行环境(Execution environment)、工具接口(Tool interface)、上下文管理(Context management)、生命周期/编排(Lifecycle/Orchestration)、可观测性(Observability)、验证(Verification)和治理(Governance)。该体系在先前六组件框架的基础上进行了扩展,将可观测性和治理视为独立的架构关注点。
一句话总结
本综述提供了基于实践的 agent Harness 工程系统化处理方法,论证了基础设施层比底层模型更能驱动 LLM agent 的可靠性,并介绍了 ETCLOVG,这是一个七层分类法,通过将 Observability 和 Governance 视为独立架构关注点来扩展先前六组件框架,以解决生产痛点和成本 - 质量 - 速度三难困境。
核心贡献
- 本文介绍了 ETCLOVG,这是一个涵盖 Execution environment、Tool interface、Context management、Lifecycle/Orchestration、Observability、Verification 和 Governance 的七层分类法。该框架通过将 Observability 和 Governance 视为独立架构关注点,扩展了先前的六组件模型。
- 将 148 多个开源项目映射到该分类法提供了迄今为止最广泛的生态系统快照。该分析揭示了 agent 基础设施格局内的采用模式、覆盖差距和新兴设计原则。
- 该工作确立了 agent Harness 作为一个独立的系统层,通过从提示到上下文再到 Harness 工程的三阶段工程演进来驱动现实世界的可靠性。该综合涵盖了成本 - 质量 - 速度三难困境、能力 - 控制权衡和 Harness 耦合问题,以将 Harness 工程置于更广泛的轨迹中。
引言
大型语言模型 agents 在生产中的快速部署表明,任务可靠性取决于围绕它的 infrastructure 层,而不是底层模型。先前的研究主要集中在模型能力上,而从业者缺乏正式词汇来系统地改进集成系统。作者通过推进绑定约束论题来解决这一差距,该论题将 agent Harness 定位为现实世界可靠性的主要驱动因素。他们介绍了 ETCLOVG,这是一个七层分类法,将 Observability 和 Governance 视为独立架构关注点,而不是副作用。此外,团队将 140 多个开源项目映射到此框架,以识别生态系统模式并从生产部署中提炼工程原则。
数据集
- 数据集构成与来源: 作者构建了一个系统语料库,映射来自四个流的公开记录的 agent Harness 工件:先前综述、GitHub 搜索、精选列表和公司工程博客。
- 关键子集与示例: 收集包括 Daytona 和 E2B 等通用沙箱、Anthropic Computer Use 等计算机使用基础设施以及 WebArena 等浏览器环境。还包括 SWE-bench 和 Terminal-Bench 等软件工程基准。
- 使用与分析: 该数据集作为可见 agent Harness 生态系统的地图,而不是训练分割。作者根据公开证据将工件分配给七个 ETCLOVG 层。
- 处理与元数据: 项目经过过滤以排除简单的聊天机器人和静态数据集。项目名称和发布年份等元数据记录在冻结于 2026 年 5 月 08 日的快照中。编码遵循单一主要编码者协议,并经过作者审计。
方法
作者为 agent Harness 工程提出了一种七层分类法,称为 ETCLOVG,代表 Execution、Tooling、Context、Lifecycle、Observability、Verification 和 Governance。该框架区分了 Harness 的结构核心和围绕它的控制平面。前四层描述了结构核心。Execution (E) 决定 agent 代码在哪里运行以及什么沙箱约束限制了它。Tooling (T) 指定如何描述、发现和调用外部能力。Context (C) 控制模型在短期、会话级和持久化视野中可以看到什么。Lifecycle (L) 组织读取和写入该状态的控制流,范围从单 agent 循环到多 agent 工作流。
剩余三层描述了控制平面。Observability (O) 捕获追踪、成本、故障和可靠性信号。Verification (V) 将任务和追踪转化为评估、故障归因和回归反馈。Governance (G) 通过权限、身份、策略、加固、审计和人工监督机制约束行为。两项设计选择区分了此分类法。首先,Observability 被提升为独立层,而不是被视为生命周期钩子的副作用。其次,Governance 被引入为一级层,捕获安全和合规问题的全谱。
验证和评估被组织为任务到反馈的生命周期。此过程始于任务和基准定位,随后是执行前就绪验证。受控执行和追踪捕获在可重现条件下运行 agent。多级判断和故障归因在结果、轨迹和评估器级别评估运行。最后,连续回归和部署反馈将结果转化为 Harness 改进的工程证据。此生命周期将评估从排行榜机制重新框架化为 agent Harness 的质量控制循环。
Governance 通过定义策略检查何时触发的生命周期钩子进行集成。许多 Harness 在 agent 循环的每个阶段都暴露钩子点。执行前钩子在输入到达 LLM 之前验证输入。执行前调用钩子在工具执行之前检查建议的操作。执行后钩子调解从工具输出回到上下文的信息流。人在回路钩子基于用户批准门控重大操作。这些钩子允许在不修改 agent 核心推理的情况下注入治理逻辑。
实验
对 170 多个项目的聚合分析表明,执行和工具基础设施已经成熟,而治理和可观测性在开源生态系统中仍然碎片化。记忆系统实验验证了各种架构策略,包括混合存储和集体学习,证明了从研究原型到生产就绪基础设施的转变。评估框架优先考虑执行前就绪和轨迹级分析,以确保可重现性并生成具体工程反馈,而治理差距突出了需要标准化策略和统一对抗基准以支持安全部署。