HyperAIHyperAI

Command Palette

Search for a command to run...

10 小时前
Agent
LLM

深度研究 Agents 在哪里出错?Agent 轨迹中的跨度级错误定位

摘要

深度研究 agents 通过包含搜索、工具使用、证据检查与答案合成的长轨迹来解决问题。基于最终答案的评估能够显示一个 agent 是否成功,但无法指出轨迹中哪些部分导致答案不可靠。我们针对深度研究 agents 研究片段级错误定位问题。我们收集了来自两个 agent 框架、三个骨干模型和三个基准的 2,790 条真实轨迹,将原始日志转换为语义片段,并通过 LLM 辅助的专家审查对有害错误片段进行标注。基于这些标注,我们构建了 TELBench,这是一个包含 1,000 个实例的基准,用于在正常探索、失败搜索、暂定假设与无害噪声中识别错误片段。我们进一步提出了 DRIFT,这是一种以声明为中心的审计框架,用于追踪 agent 的声明,检查其在轨迹证据中的支持情况,并标记那些因缺乏支持或相互冲突的声明而影响答案路径的片段。跨模型族与审计框架的实验表明,DRIFT 将片段级错误定位与首次错误准确率最高提升了 30 个百分点。我们的工作为深度研究 agents 的可靠性提供了过程级视角。

一句话总结

本文提出了 DRIFT,这是一种以声明(claim)为中心的审计框架。该框架通过在 TELBENCH 基准测试中系统地将 agent 声明与轨迹证据进行比对,将 span 级别的错误定位和首次错误准确率最高提升了 30 个百分点。

核心贡献

  • 本文引入了 TELBENCH,这是一个包含 1,000 个实例的基准测试,专门用于深度研究 agent 的 span 级别错误定位。该基准由 2,790 条真实轨迹转换而来的语义 span 构成,并通过 LLM 辅助的专家评审进行标注,以区分有害错误与常规探索及无害噪声。
  • 该研究展示了 DRIFT,一种以声明为中心的审计框架。该框架系统性地追踪 agent 声明,基于轨迹证据验证其支持情况,并标记那些因缺乏支持或存在冲突的断言而破坏最终答案路径的执行 span。
  • 跨多个模型家族与审计框架的综合评估表明,DRIFT 将 span 级别的错误定位和首次错误准确率最高提升了 30 个百分点,为 agent 的可靠性提供了过程级视角。

引言

基于 LLM 的 agent 正被越来越多地部署,用于自动化需要大量信息检索、推理与综合的复杂多步深度研究工作流程。这些系统的重要性在于,它们能够显著加速科学与技术领域中的知识密集型任务。然而,调试此类 agent 仍然具有挑战性,因为先前的方法通常仅在粗粒度的轨迹层面评估失败情况,导致开发者无法隔离触发错误的具体推理步骤或生成文本。为弥补这一差距,研究开发了一种 span 级别的错误定位方法,能够精确识别 agent 轨迹中的问题片段,从而实现针对性调试并提升深度研究自动化的可靠性。

数据集

  • 数据集构成与来源

    • 研究通过执行来自三个公开深度研究基准(GAIA-val、XBench 和 BrowseComp-test)的任务,汇编了包含 2,790 条轨迹的语料库。
    • 为防止数据集分布偏差,BrowseComp 被下采样至 200 个任务,使任务总数达到 465。
    • 每个任务均在两个 agent 框架(MiroFlow 和 OAgent)上使用三款前沿模型(GPT-5、Gemini-2.5-Pro、Claude-Sonnet-4.5)运行。
  • 子集详情与过滤

    • 初始语料库包含 1,890 条至少具有一条 span 级别错误的轨迹,构成候选池。
    • 在过滤出错误边界清晰、内部证据可验证、分割稳定且包含充足非错误干扰项的数据后,研究精心筛选出包含 1,000 个实例的 Verified-1K 子集。
    • 该测试集根据轨迹长度、错误稀疏度和干扰项密度划分为 600 个简单实例和 400 个困难实例,每条轨迹平均包含 11.95 个语义 span。
  • 处理与元数据构建

    • 原始框架特定日志被标准化为统一的执行单元序列,将工具调用与其结果合并,并将嵌套的多 agent 轨迹线性化为单一语义顺序。
    • 轨迹利用搜索目标、候选集合、时间范围或推理目标等边界信号被分割为语义 span,同时将查询改写与重试归入同一局部目标下。
    • span 标签通过 LLM 辅助的候选提议流程分配,随后由七名经过培训的标注员对完整轨迹进行专家评审并解决分歧。
    • 元数据包含应用于所有 span 的八阶段操作标签,以及从包含六个类别的 18 种类型分类法中提取的主要故障标签,该标签仅应用于错误 span。故障分类法通过 LLM 理由聚类、分层 map-reduce 归纳及手动边界校准推导得出。
  • 在本文中的用途

    • 该数据集不用于模型训练或混合比例调整。相反,完整的 2,790 条轨迹语料库专门用于机制分析与错误模式研究。
    • Verified-1K 子集作为基准测试集,用于评估 span 级别的错误定位能力。
    • 评估输入严格限制为原始问题与排序后的 span 文本,以确保模型仅在原始轨迹证据上进行评估,无法获取阶段标签、故障标注或真实标签标记。

方法

研究提出了 DRIFT,这是一种以声明为中心的审计框架,旨在通过分析 agent 承诺的演变过程来定位深度研究 agent 轨迹中的错误 span,而非孤立地处理各个 span。该框架作用于从已完成轨迹中提取的原始 span 序列,输入仅包含任务问题与排序后的 span 文本。DRIFT 的核心见解在于,有害错误往往源于早期缺乏支持或存在冲突的声明,这些声明随后在后续推理中被当作既定事实重复使用,因此必须跨轨迹全程追踪声明及其依赖关系。

该框架由三个按顺序运行的主要模块构成。第一个模块 Claim Keeper 对整个轨迹执行全局遍历,以构建全面的声明账本。该账本记为 L={ck}k=1m\mathcal{L} = \{c_k\}_{k=1}^mL={ck}k=1m,将每个关键声明 ckc_kck 记录为元组 (ak,ik,bk,Uk,τk,σk)(a_k, i_k, b_k, U_k, \tau_k, \sigma_k)(ak,ik,bk,Uk,τk,σk),其中 aka_kak 为文本声明,iki_kik 为其引入的 span,bkb_kbk 为其产生关键影响的第一个 span,UkU_kUk 为后续使用该声明的 span 集合,τk\tau_kτk 为声明类型(例如实体、约束、计算),σk\sigma_kσk 为其状态(例如探索性、试探性、关键性、已定稿)。该账本将普通探索与承诺性推理分离开来,捕捉 agent 不断演变的信念与承诺。

第二个模块 Support Seeker 以声明账本为输入,检查每个关键声明的支持状态。它分配四种状态之一:DIRECT(声明由轨迹中的证据直接确立)、WEAK(存在相关证据但决定性链接不完整或隐含)、MISSING(无展示支持可确立该声明)或 CONFLICTING(展示证据与声明相矛盾)。此阶段不输出最终错误 span,而是识别支持风险,随后将其传递至最终模块。最终模块 Dependency Tracer 确定哪些高风险声明对应于有害错误。它识别出承诺使用、重复使用、放大或定稿缺乏支持或存在冲突的关键声明的 span,并将其标记为错误 span。最终预测结果为所有此类 span 的集合,即 E^={siTh(si)=1}\hat{E} = \{s_i \in T \mid h(s_i) = 1\}E^={siTh(si)=1},其中 h(si)=1h(s_i) = 1h(si)=1 表示该 span 承诺使用、重复使用、放大或定稿了有害声明。

实验

评估在验证过的轨迹数据集上比较了五个模型家族与四种诊断框架,以验证其在不同任务复杂度下的 span 定位与首次错误检测能力。结果表明,结构化且以声明为中心的审计方法通过有效追踪关键承诺并过滤常规探索噪声,显著优于通用的 agentic 基线方法;而单纯增加模型规模或工作流复杂度则收益递减。定性分析显示,过程错误高度依赖特定阶段,决策与定稿阶段具有最高的内在风险,且失败通常通过相互关联的链条传播,而非表现为孤立的失误。最终,研究结果证实,定制化的诊断结构对于导航长 agent 轨迹并准确区分早期承诺错误与下游验证失败至关重要。

研究分析了不同诊断框架在轨迹错误检测方面的性能,从 F1 分数与平均 token 消耗两个维度进行比较。结果表明,DRIFT 在各种模型家族中均取得了最高的 F1 分数,同时保持了良好的效率与性能权衡。对比显示,单纯增加模型规模或使用通用 agentic 审计框架并不能一致地提升错误检测能力,这凸显了结构化声明中心方法对于可靠诊断的重要性。DRIFT 在所有模型家族中均取得最高 F1 分数,同时保持具有竞争力的 token 效率。像 Codex 和 Claude Code 这样的通用 agentic 审计框架表现出不稳定的收益,其性能甚至可能低于原始 LLM。F1 性能与 token 使用在不同模型间差异显著,DRIFT 即使在较低的 token 预算下也始终优于基线方法。

该表格展示了不同模型与方法下的 token 消耗指标,表明与其他框架相比,DRIFT 始终需要最多的 prompt 与 completion token。在所有模型中,使用 DRIFT 时平均 token 消耗显著增加,表明计算开销更高。在各模型中,DeepSeek-V3.2 在 DRIFT 下产生的平均 token 成本最高,而 Claude-Sonnet-4.6 最低。DRIFT 在所有模型与方法中均导致最高的 token 消耗。DeepSeek-V3.2 在 DRIFT 下具有最高的平均 token 使用量。Claude-Sonnet-4.6 在 DRIFT 下的 token 使用量最低。

研究在不同模型家族与难度划分上评估了多种诊断框架,重点关注其检测错误 span 并识别 agent 轨迹中首次错误的能力。DRIFT 在 span 级别 F1 上持续优于基线方法,尤其在困难案例中表现突出,并在不同模型规模与轨迹复杂度下展现出稳健性。结果强调,有效的轨迹审计需要结构化机制来追踪声明、验证证据并过滤噪声,而非单纯依赖增加模型规模或通用 agentic 工作流。DRIFT 在所有模型与难度划分中均取得最高 F1 分数,优于原始 LLM 与通用 agentic 审计框架。首次错误准确率仍低于 span 级别 F1,表明定位最早错误比检测错误 span 更具挑战性。DRIFT 的性能提升在不同模型家族与轨迹长度中保持一致,表明其收益源于结构化审计而非模型容量的增加。

该表格展示了用于评估 agent 轨迹的各种基准测试对比,突出了任务类型、项目数量、轨迹类型、平均长度与评估维度的差异。TELBENCH 被介绍为一种专注于检测 agent 轨迹中错误的新基准测试,特别强调 span 级别与首次错误定位,其特点在于使用 DR Agent Trace 以及 span error 和 first error 等评估指标。TELBENCH 是一种用于评估 agent 轨迹错误定位的新基准测试,专注于 span 级别与首次错误检测。该表格对比了多个基准测试,每个基准测试均具有独特的任务、轨迹类型与评估维度,展示了 agent 评估方法的多样性。TELBENCH 使用 DR Agent Trace,并在 span error 与 first error 等维度上进行评估,强调早期错误检测在 agent 工作流中的重要性。

实验在多个模型家族与轨迹复杂度层级上评估了多种诊断框架,以验证其在检测错误 span、定位初始失败及平衡计算效率方面的有效性。结果表明,DRIFT 通过采用结构化且以声明为中心的方法,而非依赖增加模型规模或非结构化工作流,持续优于基线模型与通用 agentic 审计框架。尽管定位最早错误仍比识别错误 span 更具挑战性,但该框架在所有测试条件下均保持了稳健的性能与良好的效率。最终,研究结果证实,可靠的轨迹诊断依赖于明确的声明追踪与证据验证,而非通用的 agentic 模式。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供