Command Palette
Search for a command to run...
LLM Agents 中的外部化:关于 Memory、Skills、Protocols 与 Harness Engineering 的统一综述
LLM Agents 中的外部化:关于 Memory、Skills、Protocols 与 Harness Engineering 的统一综述
摘要
大语言模型(LLM)Agent 的构建方式正在发生转变:与其通过改变模型权重,不如通过围绕权重重新组织运行时(runtime)环境。早期系统曾期望模型通过内部学习来获取的能力,现在正被外部化为存储器(memory stores)、可复用的技能(reusable skills)、交互协议(interaction protocols)以及确保这些模块在实践中可靠运行的周边框架(harness)。本文从“外部化”(externalization)的角度审视了这一范式转移。借鉴“认知人工制品”(cognitive artifacts)的概念,我们认为 Agent 基础设施的重要性不仅在于增加了辅助组件,更在于它将沉重的认知负担转化为模型可以更可靠地解决的形式。基于这一观点:记忆(memory)实现了跨时间的态(state)外部化;技能(skills)实现了程序化专业知识(procedural expertise)的外部化;协议(protocols)实现了交互结构的外部化;而框架工程(harness engineering)则作为统一层,将这些模块协调为受控的执行流程。本文梳理了从权重(weights)到上下文(context)再到框架(harness)的历史演进过程,将记忆、技能和协议分析为三种既独立又耦合的外部化形式,并探讨了它们在大型 Agent 系统内部是如何相互作用的。
一句话总结
本文通过外部化(externalization)的视角,对 LLM agent 开发进行了统一综述,认为将认知负担从内部模型权重转移到外部存储、技能、协议和 harness 工程,可以将复杂的推理转化为可靠且结构化的执行过程。
核心贡献
- 本文引入了外部化概念作为一种框架,用于理解 LLM agent 开发从模型权重优化向运行时基础设施重组的转变。
- 该工作将 agent 能力分为三种不同但相互耦合的外部化形式:用于状态管理的 memory,用于程序化专业知识的 skills,以及用于交互结构的 protocols。
- 研究提出了一套全面的分类法,通过可维护性、恢复鲁棒性、上下文效率和治理质量等指标来评估 agent 系统,从而更好地将基础设施成就与模型智能区分开来。
引言
随着 Large Language Model (LLM) agent 的演进,开发重点正在从增加模型参数转向优化其运行的运行时环境。早期的方案依赖于将知识内化到模型权重中,或通过瞬时上下文窗口进行管理,但这些方法在长期连续性、程序一致性以及与外部工具的可靠协作方面面临挑战。本文利用认知人工制品(cognitive artifacts)的概念,提出了一个以外部化为核心的系统级框架。研究认为,可靠的 agency 是通过将认知负担重新定位到三个不同维度来实现的:用于时间状态的 memory,用于程序化专业知识的 skills,以及用于结构化交互的 protocols。这些模块由 harness 工程统一,通过提供必要的编排、治理和可观测性,将原始的模型推理转化为可靠的现实世界执行。
方法
本文提出了一种针对 agentic intelligence 的框架,将连续性的负担从模型的内部权重转移到被称为 harness 的结构化认知环境中。该架构通过将认知外部化为三个主要模块:Memory、Skills 和 Protocols,实现了 agent 的跨时状态与其瞬时上下文的解耦。
Memory 系统作为外部化状态的存储库,分为四个不同的维度以管理时间属性和检索需求。这些维度包括:捕捉任务实时中间状态的工作上下文(working context);记录特定先前运行和决策点的片段经验(episodic experience);存储抽象领域事实和启发式知识的语义知识(semantic knowledge);以及跟踪用户特定偏好和习惯的个性化 memory(personalized memory)。
如上图所示,来自瞬时窗口的原始上下文和环境反馈被转换为这四个持久化维度。这些 memory 系统的架构从单体上下文演变为检索存储,再到涉及提取与整合的分层编排,最终演变为利用动态模块和基于反馈优化的自适应 memory 系统。
Skills 代表了外部化的专业知识,将程序化诀窍转化为可重用的、有界的能力。一个 skill 由其规范(specification)定义,规范包括能力边界、范围、前提条件、执行约束和示例。这种规范将 skill 从非结构化的 prompt 提升为可以被治理的显式对象。在 skill 人工制品中,研究区分了操作程序、决策启发式和规范约束,这些约束定义了执行的可接受边界。
Protocols 提供外部化的交互层,将高层级的 skill 意图转化为确定性的、机器可读的动作模式(action schemas)。它们通过工具 schema 和 subagent 委托合约等标准化接口,确保 skill 执行的落地。
这些模块的集成发生在 harness 中,harness 起到了协调认知环境的作用。参考框架图可知,基础模型位于中心,周围环绕着三个外部化模块和三个操作层面:Permission(权限)、Control(控制)和 Observability(可观测性)。
harness 促进了这些组件之间持续的交互循环。Memory 为 skill 选择和 protocol 路由提供所需的场景证据。Skills 将存储的经验转化为可重用的程序并调用 protocol 化的动作。Protocols 则通过将归一化的结果写回 memory 来约束执行并促进结果吸收。这创造了一个自我强化的循环,其中执行轨迹和成功经验被不断提炼,以提升 agent 的长期能力。