Command Palette
Search for a command to run...
当工具失效时:LLM Agent 动态重规划与异常恢复的基准测试
当工具失效时:LLM Agent 动态重规划与异常恢复的基准测试
Dongsheng Zhu Xuchen Ma Yucheng Shen Xiang Li Yukun Zhao Shuaiqiang Wang Lingyong Yan Dawei Yin
摘要
现有的基准测试主要在理想化的“顺利路径”上评估大语言模型(LLMs)中的工具集成推理(TIR),在很大程度上忽视了现实世界中的工具故障。我们推出了ToolMaze,这是一个用于TIR agents动态路径发现与错误恢复的基准测试。为了将系统性重规划与盲目的试错区分开来,ToolMaze采用了一种二维设计:基于有向无环图(DAG)的拓扑复杂性,以及工具扰动的2imes2分类法(显式/隐式,瞬态/永久)。评估结果表明,扰动导致几乎所有模型的性能下降,其中在隐式语义故障下的性能下降最为显著。由于对损坏输出的系统性过度信任,在这些场景下扰动恢复率(PRR)骤降约37%,而复杂的拓扑结构则将agents困于徒劳的试错循环中。关键在于,智能体容错能力随模型规模的提升速度比基础任务执行慢3.66imes,这凸显了动态重规划是一个独立的瓶颈,尚未通过模型扩展或提示工程得到解决。数据和代码可在 https://github.com/Zhudongsheng75/ToolMaze 获取。
一句话总结
作者提出了 TOOLMAZE,这是一个基准测试,通过在基于有向无环图(DAG)的拓扑复杂性和工具扰动的二乘二分类体系下评估 LLM Agent,将系统性重规划与盲目试错隔离开来。研究揭示,隐式语义故障会导致最显著的性能下降,且容错能力随模型规模的增长速度仅为基本执行任务的 3.66 分之一,从而将动态重规划识别为扩展规模或提示工程未能解决的一个独立瓶颈。
核心贡献
- 提出 TOOLMAZE,这是一个用于工具集成推理 Agent 动态路径发现与错误恢复的基准测试,系统评估了真实工具故障下的容错能力,而非理想化的执行路径。
- 建立了一个二维评估框架,将基于 DAG 的拓扑复杂度与显式、隐式、瞬态及永久工具扰动的 2×2 分类体系相结合,从而将系统性重规划与盲目试错分离开来。
- 通过实证评估证明,隐式语义故障会使扰动恢复率(Perturbation Recovery Rate)下降约 37%,且 Agent 的容错能力扩展速度比基本任务执行慢 3.66 倍,从而将动态恢复识别为模型扩展或提示工程尚未解决的独立瓶颈。
引言
集成外部工具已使大语言模型演变为能够执行复杂多步工作流的动态 Tool-Integrated Reasoning Agent。该能力至关重要,因为实际部署环境通常存在于易出错的依赖图中,Agent 会频繁遭遇显式执行错误与细微的语义损坏,进而可能引发级联逻辑故障。先前的评估框架大多依赖理想化的顺利执行场景或注入随机扰动,导致其无法系统性地衡量 Agent 的异常检测与结构化重规划能力。作者提出了 TOOLMAZE,该基准测试将鲁棒性评估构建为一个二维网格,结合了有向无环图复杂度与受控的扰动模式。通过在预设节点注入故障并提供详尽的真实恢复路径,该框架利用恢复成本(recovery cost)和扰动恢复率(perturbation recovery rate)等针对性指标,将真正的动态重规划能力隔离出来,揭示了通用任务成功与真实 Agent 容错能力之间的关键差距。
数据集
-
数据集构成与来源: 作者构建了一个包含 270 个手工制作的工具模拟的精选基准,这些模拟基于真实 API 设计。这些工具利用静态查找表进行确定性运行,部分实现会维护轻量级的执行状态以复现实际服务行为。语料库涵盖六个应用领域(金融、旅行、办公、购物、物联网和通用领域),以覆盖多样化的企业与消费者工作流。
-
关键子集详情与元数据: 每个工具附带两个互补的元数据标签:功能类别(Source、Processor 或 Action)与应用领域。数据集将这些工具组织为 126 个替代组,以支持多路径任务拓扑。扰动子集被划分为四个类别(P1 至 P4),包含真实的 HTTP 错误代码以及物理定律违背、工具泄露和时间矛盾等逻辑损坏类型。领域平衡采样确保了各行业的均匀分布,而类别内相似度检查则证实了高度的语义多样性与极低的模板重叠率。
-
数据使用与处理流程: 该数据集并非训练语料,而是作为专门的评估基准,旨在填充复杂度与扰动(C×P)评估矩阵。作者采用“工具优先”的生成流水线,在起草自然语言查询之前先构建有向无环图,从而保证语义连贯性与数学完备性。他们对每个任务枚举真实解空间,并将最短有效路径指定为基线,以量化 Agent 的恢复效率。任务自然化采用两阶段翻译流程,随后进行严格的反向验证步骤,由独立的 LLM 重构工具依赖关系,以防止语义漂移。
-
结构约束与验证规则: DAG 组装强制要求无环性,且规定每个结构良好的图必须包含至少一个 Source 节点和一个 Action 节点,中间由可选的 Processor 节点连接。语义验证通过检查上游输出是否与下游输入存在实质性关联,来过滤不连贯的数据流。严格的参数绑定规则规定了对象字段与标量字段在步骤间的传递方式,而领域一致性检查则明确禁止语义不匹配的工具组合。所有模拟均经过工程化处理,以消除外部网络依赖与速率限制波动,确保在不牺牲结构保真度的前提下实现完全可复现的结果。
方法
TOOLMAZE 框架被设计为一个流水线,沿两个正交轴评估大语言模型(LLM)Agent:任务复杂度(C)与扰动模式(P)。这种双轴评估使 Agent 的容错能力及其在故障后发现替代有效工具调用路径的能力得到系统评估。该框架整合了任务构建、运行时扰动引擎与评估模块,用于生成并评估由坐标 (C,P) 定义的基准实例。
任务复杂度轴 C 控制用于表示工作流的有向无环图(DAG)的拓扑结构,决定了 Agent 必须考虑的替代工具调用路径数量。定义了四个复杂度级别:C1(线性)提供单一且无分支的路径;C2(1对N替代)引入功能等效的替代项,要求直接进行单步替换;C3(多对多多路径)在相互作用的子图间创建有效恢复路径的组合空间,用于测试广度优先规划;C4(集成多分支)在单个 DAG 中结合多个 C2 与 C3 模式,要求 Agent 对多个分支节点进行推理,每个节点可能包含 1对N 或多对多恢复子图。扰动模式轴 P 决定了 Agent 推理过程中遇到的故障性质。该轴基于错误表现与时序持久性,由一个 2×2 分类体系定义。显式故障涉及机器可读的异常(如 HTTP 404 错误),会阻碍程序执行;而隐式故障则生成结构合规但语义错误的输出,需要自主验证。时序持久性区分了可通过简单重试解决的瞬态故障与需要动态重路由或优雅终止的永久故障。这些维度衍生出四种独立模式:P1(显式-瞬态)、P2(显式-永久)、P3(隐式-瞬态)与 P4(隐式-永久)。
运行时扰动引擎负责在 Agent 推理期间动态实现 P 轴。它采用确定性扰动注入机制,为每个任务分配扰动配置文件,指明首选路径上的哪个工具应发生故障以及应返回的合成响应。在运行时,当 Agent 调用工具时,引擎会检查该配置;若调用匹配故障规则,则返回预定义合成响应;否则将调用转发至标准工具模拟器。这确保了每个受评模型接收相同的注入故障响应,消除了扰动机制带来的方差。在涉及多路径的任务中应用故障激活规则,此时故障与替代组关联而非固定工具。一旦 Agent 调用该组中的任意工具,引擎便将故障分配给所选工具,并禁用该组内的后续激活,从而确保无论选择哪条有效路径都会触发扰动,同时防止同一组内的多个替代项同时被扰动。对于 C2 与 C3 任务,该机制全局应用于单一替代组。对于 C4 任务,则按并行槽位独立应用,使每个分支最多触发一个局部扰动而不影响其他分支。激活后,P 轴语义统一生效:P1 与 P3 故障仅影响初始调用,而 P2 与 P4 故障会使目标工具永久不可用或损坏。
框架的整体架构如图 2 所示。流程始于语料与任务生成,在此阶段选择应用领域与功能类别以构建富含上下文的查询请求。该请求随后被自然化为 DAG 模板,构成任务基础。定义了拓扑任务复杂度级别 C1 至 C4,各自具备独特的 DAG 拓扑结构。负责注入 P 轴扰动的运行时扰动引擎被整合至评估流水线中。评估指标用于衡量 Agent 性能,包括任务成功率(TSR)、扰动恢复率(PRR)与恢复成本(RC),这些指标量化了 Agent 处理故障与高效恢复的能力。评估框架还包含 Agent 推理环节,Agent 在此处理用户查询与工具语料以生成最终答案。整个流程旨在全面评估多样化故障条件下的弹性重规划策略。
实验
该评估框架在 TOOLMAZE 基准上测试了一系列开源权重与闭源 LLM,该基准通过在不同拓扑复杂度下系统引入显式与隐式的瞬态或永久工具故障,以验证 Agent 的动态重规划与错误恢复能力。结果表明,导航理想化执行路径与从真实异常中恢复在根本上是解耦的,因为即使是最先进的模型在扰动下也会经历显著的性能下降与升高的恢复成本。尽管故障感知提示与适度的任务复杂度提供了部分缓解,但 Agent 因对损坏输出存在系统性过度信任,始终难以应对隐式语义故障。此外,容错能力的扩展速度显著低于基线任务完成速度,表明稳健的动态重规划仍是一个独立瓶颈,当前的模型扩展与提示策略未能解决该问题。
作者评估了不同语言模型在不同扰动模式与任务复杂度下处理工具使用故障的鲁棒性。结果显示,模型在扰动条件下的表现显著劣于非扰动条件,且在隐式语义故障下的性能下降更为严重。使用故障感知提示提升了恢复能力,但基本任务执行与容错能力之间的差距依然巨大,表明动态重规划是一个无法仅靠模型扩展解决的独立挑战。模型在扰动下表现出显著的性能下降,其中隐式语义故障场景的降幅最为剧烈。故障感知提示持续改善恢复结果,但所有模型的容错能力整体差距依然存在。随着模型规模增大,容错能力的提升速度远慢于基本任务执行,凸显了动态重规划方面存在的能力缺口。
作者在测试工具使用任务中动态重规划与错误恢复的基准上评估了 LLM 的性能,该基准涵盖多种扰动模式。结果表明,随着扰动从显式与瞬态转向隐式与永久,恢复成功率下降且恢复成本上升,表明 Agent 更难应对欺骗性故障。故障感知提示改善了恢复性能,但未能消除简单故障与复杂故障之间的差距。随着扰动变得更加隐式与永久,恢复成功率降低且恢复成本增加。与标准提示相比,故障感知提示持续改善恢复性能。Agent 在隐式语义故障下的恢复成功率出现显著下降,表明在检测与恢复欺骗性错误方面存在根本性挑战。
该表格概述了实验中使用的任务复杂度级别,详细说明了四个复杂度级别(C1 至 C4)下的领域参与情况、工具集多样性与拓扑统计信息。随着复杂度从 C1 增至 C4,领域参与情况发生变化,工具集多样性增加,拓扑复杂度显著增长,平均路径更长且有效执行路径数量更多。这些指标表明,任务随着复杂度级别的提升变得更加多样化且结构更复杂。不同复杂度级别下的领域参与情况存在差异,通用领域与物联网领域在更复杂的任务中参与度更高。工具集多样性随复杂度提升而增加,由平均 Jaccard 相似度衡量。拓扑复杂度随复杂度级别上升而增长,表现为更高级别具有更长的平均路径与更多的有效执行路径。
作者在旨在评估涉及扰动与不同任务复杂度下工具使用场景鲁棒性的基准上,评估了一系列语言模型。结果表明,与非扰动环境相比,模型在扰动条件下表现出显著的性能下降,其中恢复能力与重规划效率受到的影响尤为严重。评估显示,模型规模对任务完成率的提升速度快于容错能力,且显式提示仅能部分改善对隐式语义故障的处理。模型在扰动下的表现较非扰动环境大幅下滑,表明鲁棒性并非通用任务熟练度的自然副产品。随着扰动变得更加隐式与持久,恢复性能下降且恢复成本上升,暗示检测语义错误存在根本性挑战。容错能力随模型规模的增长速度远慢于任务完成速度,凸显了动态重规划是一项无法仅靠扩展规模解决的独立能力。
作者在旨在测试工具集成推理中动态路径发现与错误恢复的基准上,评估了一系列大语言模型。结果表明,与非扰动环境相比,模型在扰动条件下的性能显著下降,显式与隐式故障对恢复过程的影响各不相同。故障感知提示持续改善结果,但模型仍难以应对隐式语义错误,且在复杂场景中表现出低效的重规划。相较于非扰动条件,模型在扰动模式下的性能急剧下降,表明恢复是一项与基本任务完成不同的独立挑战。显式扰动比隐式扰动更容易处理,模型在语义错误上表现出更低的恢复率与更高的恢复成本。故障感知提示虽能改善恢复效果,但模型仍无法从持久的隐式故障中有效恢复,这暗示了异常检测与重规划方面存在根本性局限。
实验在旨在评估工具使用任务中动态重规划与错误恢复的基准上测试了大语言模型,该基准涵盖不同扰动模式与递增的复杂度级别。结果表明,模型在扰动下的性能大幅下降,其中隐式语义故障对检测与恢复构成了最大挑战。尽管故障感知提示与增加模型规模均能增强基本任务执行能力,但它们仅能部分改善容错能力,暴露出处理欺骗性错误时的持续差距。最终,研究结果证明,稳健的动态重规划仍是一项独立能力,无法仅通过扩展规模或标准提示来解决。