HyperAIHyperAI

Command Palette

Search for a command to run...

17 小时前
LLM
Agent

从静态模板到动态运行时图:LLM Agent 工作流优化综述

Ling Yue Kushal Raj Bhandari Ching-Yun Ko Dhaval Patel Shuxin Lin Nianjun Zhou Jianxi Gao Pin-Yu Chen Shaowu Pan

摘要

基于大语言模型(LLM)的系统正日益普及,它们通过构建可执行工作流来完成任务,这些工作流将 LLM 调用、信息检索、工具使用、代码执行、记忆更新与验证等环节交错结合。本综述回顾了近期关于设计与优化此类工作流的方法,我们将这些工作流视为智能体计算图(Agentic Computation Graphs, ACGs)。我们依据工作流结构确定的时机对现有文献进行梳理,其中“结构”指代包含哪些组件或智能体、它们之间的依赖关系以及信息在它们之间的流动方式。基于这一视角,我们将方法区分为静态方法与动态方法:前者在部署前固定一个可复用的工作流骨架,后者则在执行前或执行过程中针对特定运行实例选择、生成或修订工作流。此外,我们沿三个维度对既有研究进行了进一步分类:结构确定的时机、工作流中被优化的部分,以及引导优化的评估信号(例如任务指标、验证器信号、偏好反馈或基于轨迹的反馈)。我们同时区分了可复用的工作流模板、特定运行实例中生成的具体图结构,以及执行轨迹,从而将可复用的设计选择与特定运行中实际部署的结构及最终实现的运行时行为区分开来。最后,我们提出了一种结构感知的评估视角,该视角在下游任务指标的基础上,补充了图级属性、执行成本、鲁棒性以及不同输入下的结构变异性等维度。我们的目标是提供一套清晰的术语体系、一个用于定位新方法的统一框架、对现有文献更为可比的综述视角,以及面向未来 LLM 智能体工作流优化研究的可复现评估标准。

一句话总结

伦斯勒理工学院和 IBM 研究院的研究人员提出了一个用于Agentic计算图(Agentic Computation Graphs)的统一框架,通过区分静态和动态工作流结构来优化大语言模型(LLM)Agentic系统。本综述引入了一种结构感知的评估视角,增强了可复现性,并阐明了复杂工具智能工作流的设计选择。

主要贡献

  • 本文引入了Agentic计算图(ACGs)作为可执行 LLM 工作流的统一抽象,区分了在部署前固定结构的静态方法与在执行过程中生成或修改结构的动态方法。
  • 提出了一个三维分类法,根据结构确定的时机、被优化的工作流组件以及指导优化过程的具体评估信号,对现有文献进行组织。
  • 概述了一种结构感知的评估视角,将图级属性、执行成本、鲁棒性和结构变化作为下游任务指标的补充,从而为未来研究建立更具可复现性的标准。

引言

大语言模型(LLM)系统正从简单的聊天机器人演变为复杂的Agentic计算图,协调工具、代码执行和验证以解决任务。整体工作流结构决定了组件依赖关系和信息流,往往比单个模型的能力更能决定系统的有效性和成本。然而,先前的研究和综述大多将工作流设计视为固定的实现细节,或专注于工具选择和Agent协作等相邻主题,导致工作流结构本身的优化作为一个首要对象在很大程度上未被解决。为了填补这一空白,作者引入了一个统一框架,将工作流视为Agentic计算图,并根据结构确定的时机对方法进行分类,范围从静态离线模板搜索到动态运行时生成和编辑。他们进一步综合了关于优化目标、反馈信号和更新机制的文献,同时提出了一种新的评估协议,将下游任务指标与图级属性和执行成本区分开来。

方法

作者引入了Agentic计算图(ACG)作为以 LLM 为中心的可执行工作流的统一抽象。在该框架中,节点执行原子操作,如 LLM 调用、信息检索或工具使用,而边编码控制、数据或通信依赖关系。整体优化过程遵循一个循环:任务输入被映射到 ACG,然后被实例化为可重用模板。该模板被执行以产生轨迹,随后对轨迹进行分析,以在部署前优化、观察和细化工作流。

如下图所示:

该框架区分了三个关键对象:ACG 模板、实现图和执行轨迹。模板是一个可重用的可执行规范,定义为 Gˉ=(V,E,Φ,Σ,A)\bar{\mathcal{G}} = (\mathcal{V}, \mathcal{E}, \Phi, \Sigma, \mathcal{A})Gˉ=(V,E,Φ,Σ,A),其中 V\mathcal{V}VE\mathcal{E}E 代表节点和边,Φ\PhiΦ 包含节点参数(如提示和工具),Σ\SigmaΣ 是调度策略,A\mathcal{A}A 定义了允许的操作。实现图 Grun\mathcal{G}^{\text{run}}Grun 是特定运行中实际使用的具体结构,它可能通过选择或编辑与模板不同。执行轨迹 τ={(st,at,ot,ct)}t=1T\tau = \{(s_t, a_t, o_t, c_t)\}_{t=1}^Tτ={(st,at,ot,ct)}t=1T 记录了执行过程中产生的状态、动作、观察和成本的序列。

工作流优化方法根据结构确定的时机进行分类。静态方法在部署前优化可重用模板,侧重于离线模板搜索、节点级优化或结构与局部配置的联合优化。动态方法在推理时确定部分工作流,允许运行时自适应。这包括对固定超图的剪枝和选择、基于查询难度的预执行工作流生成,或在执行过程中根据反馈修订结构的执行中编辑。优化目标通常平衡任务质量 R(τ;x)R(\tau; x)R(τ;x) 与执行成本 C(τ)C(\tau)C(τ),形式化为最大化 E[R(τ;x)λC(τ)]\mathbb{E}[R(\tau; x) - \lambda C(\tau)]E[R(τ;x)λC(τ)]

该框架还概述了正交比较维度,如优化目标(节点、图、联合)、反馈机制(指标、验证器、偏好)和更新机制(搜索生成器、控制器 RL)。评估涉及结构感知的工作流质量评估、下游任务验证和效率指标。最后,作者指出了关于设计权衡的开放性问题,例如静态优化何时足够而何时需要动态自适应,以及验证器在确保工作流有效性中的作用。

实验

  • 使用标准化的分类卡片来比较方法在结构设置、优化级别和更新机制等稳定维度上的表现,确保评估的一致性,而不是依赖特定于论文的说明。
  • 实验验证了特定的算法选择高度依赖于可用的信号和证据;例如,搜索在拥有可信评估器和离散动作空间时效果最佳,而强化学习适合序列生成,但需要仔细设计奖励。
  • 评估协议表明,需要将工作流质量的结构感知评估与下游任务验证区分开来,以区分合理的图生成和实际的任务成功。
  • 研究表明,报告图级属性以及在扰动(如工具故障或模式漂移)下的鲁棒性,对于区分真正的结构改进与暴力计算或不受控制的成本增长至关重要。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供