HyperAIHyperAI

Command Palette

Search for a command to run...

关键在于TASTE:提升 Agent 基准的覆盖率与难度

Tomer Keren Nitay Calderon Asaf Yehudai Yotam Perlitz Michal Shmueli-Scheuer Roi Reichert

摘要

随着 agent 能力的提升,现有的基准测试(如 τ2τ^2τ2-Bench)正变得日益饱和。然而,构建新的基准测试任务仍然复杂、昂贵且耗时费力。此外,标准方法首先用自然语言编写场景,然后将其映射到工具序列中,这种方法仅能捕捉 agent 所执行的工具使用模式的一个狭窄子集。在本文中,我们通过逆转任务构建过程来解决这些问题。我们提出了 TASTE:Task Synthesis from Tool Sequence Evolution,一种能够生成具有更广泛工具使用覆盖范围的挑战性任务的自动化方法。TASTE 利用在 LLM 判定的有效性信号上训练的自适应对比 nnn-gram 模型。这使得我们能够采样覆盖广泛工具组合的有效工具序列。随后,TASTE 通过聚类从序列池中选取代表性序列,将其实例化为完整的基准测试任务,并通过迭代难度演化对其进行精炼。借助 TASTE,我们构建了 τcτ^cτc-Bench,这是对 τ2τ^2τ2-Bench 三个领域的挑战性扩展。我们评估了 111111 个 agent/用户 LLM 对,发现几乎在 τ2τ^2τ2-Bench 上达到饱和的模型在我们的任务上性能出现严重下降(例如,Gemini-3-Flash 从 0.82!!0.940.82!-!0.940.82!!0.94 降至 0.28!!0.610.28!-!0.610.28!!0.61)。除了增加难度之外,我们生成的任务使 agent 必须执行的不同工具组合数量翻了一番以上。我们的结果表明,现有基准测试上的高分往往反映的是饱和状态,而非稳健的任务解决能力。通过自动化生成具有高覆盖率的困难基准测试,TASTE 使得对未来的 agent 进行持续、可扩展的评估成为可能。

一句话总结

作者提出了 TASTE,这是一个自动化的框架,通过直接从工具序列生成任务来逆转传统的基准构建方式。该框架利用自适应对比 n-gram 模型采样有效组合,对其进行聚类,并迭代演化难度以构建 au^c-Bench。该基准在 11 个被评估的 agent/用户 LLM 对中揭示了严重的性能下降,其中 Gemini-3-Flash 的表现从 0.82-0.94 降至 0.28-0.61。

核心贡献

  • 本文介绍了 TASTE,一种自动化的任务合成框架,通过逆转传统基准构建方式来生成具有更广泛工具使用覆盖面的挑战性任务。该方法采用在 LLM 判断的有效性信号上训练的自适应对比 n-gram 模型来采样多样化的工具序列,通过聚类选择代表性候选项,将其实例化为完整任务,并通过迭代难度演化进行优化。
  • 该框架构建了 au^c-Bench,这是 au^2-Bench 中三个领域的挑战性扩展,旨在解决手动基准创建成本高且多样性有限的问题。
  • 在 11 个 agent 和用户 LLM 对上的评估表明,在先前基准上接近饱和的模型在新任务上经历了严重的性能下降,例如 Gemini-3-Flash 从 0.82-0.94 降至 0.28-0.61。这些结果证实了该基准在揭示当前工具使用局限性以及准确衡量 agent 能力提升方面的能力。

引言

使用工具的 agent 需要可靠的基准来评估其在可变环境中处理多轮交互的能力,然而当前的评估框架面临着显著的扩展性和覆盖度挑战。先前研究依赖昂贵的手动任务编写或通过轨迹反向合成生成数据,这通常缺乏对工具组合的系统性探索,且无法通过序列级程序模式来评估多样性。作者利用 TASTE 构建基准,该流程从代表性工具序列派生任务,并通过对抗性重写和严格验证对其进行演化,从而实现了对 agent 行为覆盖度和难度演进的精确测量。

数据集

作者提出了 τc\tau^cτc-Bench,这是一个自动生成的基准扩展,旨在提升客服 agent 评估的覆盖度和难度。该数据集采用 TASTE 方法构建,并扩展了 τ2\tau^2τ2-Bench 框架中的三个领域:Airline(航空)、Retail(零售)和 Telecom(电信)。这些领域依赖于 τ\tauτ-Bench-Verified 修正后的任务集,并模拟用户请求协助而 agent 在严格策略下执行特定领域工具之间的交互。

  • 数据集构成与子集

    • 该数据集包含三个子集,其生成基于基础领域的原始任务数量:
      • Airline:50 个任务。
      • Retail:114 个任务。
      • Telecom:114 个任务。
    • 作者将 TASTE 应用于每个领域以创建扩展集。对于 Telecom 领域,过滤规则将 gold 工具序列限制为仅包含写入类型操作,因为 gold 序列仅编码写入操作。
  • 数据使用与处理

    • 作者使用 τc\tau^cτc-Bench 进行模型评估而非训练。他们报告了基于所有领域最终状态奖励的 pass@1 分数,并额外报告了 Airline 领域的 pass@3 分数。
    • 任务生成涉及对三元模型进行 3,000 次迭代训练。该流程采样长度服从参数为 μ\muμ=7、σ\sigmaσ=5 和 α\alphaα=2 的偏态分布的独特工具序列,最大长度截断为 15。
    • 不同的 LLM 负责特定的生成阶段。Gemini-3-Flash 担任合理性验证器和任务实例化器,而 Gemini-3-Pro 用于任务演化。
  • 元数据构建与验证

    • 每个任务包含结构化元数据,例如 reason_for_callknown_infoevaluation_criteriaknown_info 字段提供姓名和查询 ID 等最小用户上下文,而 evaluation_criteria 列出完整的操作参数和 ID。
    • 该流程生成一个数据库初始化 JSON,强制实施引用完整性、经济一致性以及与操作前置条件的状态兼容性。动态实体被排除在初始化之外,并在运行时创建。
    • 一致性审查过程通过检查致命缺陷来过滤生成的任务。此验证确保最终数据集中不存在前置条件违规、依赖流错误、数据库状态不可能情况或用户指令与数据库状态之间的矛盾。

方法

作者提出了 TASTE,这是一个用于为使用工具的 agent 自动生成挑战性基准任务的三阶段框架,旨在解决手动基准构建的局限性以及现有基准的饱和问题。整体方法首先生成多样化的有效工具序列池,然后选择结构上不同的代表性序列,最后将其实例化并演化为完整且困难的任务。该框架如图所示。

在第一阶段,训练自适应对比 nnn-gram 模型以采样多样化且有效的工具序列。该模型维护两个独立的计数表 C+C^+C+CC^-C,分别用于记录被判定为合理与不合理的序列中观察到的 nnn-gram。下一个工具的采样概率由这些表导出的对比比率决定,该比率通过迭代生成与验证循环在线更新。每个候选序列由 LLM 评估并分配二元合理性标签,作为优化模型分布的学习信号。此自适应过程能够在探索广阔的工具组合空间的同时,将概率质量集中在可能有效且正确的序列上。

第二阶段从采样池中选取 KKK 个工具序列的代表性子集。这通过 KKK-medoids 聚类实现,序列基于语义加权的 Levenshtein 距离进行分组。该距离度量对功能相似工具(例如不同类型的搜索工具)之间的替换分配较低成本,而对不同工具类型之间的替换或插入和删除分配较高成本,从而确保聚类在功能结构上保持一致。代表每个聚类中心序列的 Medoids 被选为代表。每个 medoid 由相同的 LLM 验证器进行验证;如果 medoid 被判定为无效,则由其聚类中下一个最近的有效成员替换,或者移除该聚类并重新运行流程。

在第三阶段,每个选定的 medoid 被实例化为完整的基准任务,并通过演化过程进行优化。基础任务通过生成与 gold 工具序列一致的自然语言用户指令和初始数据库状态来创建。该任务经过多步有效性流程,包括基于规则的检查和使用提示辅助验证 agent 的基于模拟的验证。该 agent 接收损坏的 gold 工具调用序列版本(打乱并掩码参数),以确保其必须参与场景才能解决它。验证完成后,任务被演化以增加难度。此演化涉及策略分析阶段,其中设计对抗性模式使用户主动尝试欺骗 agent 执行错误操作或参数。随后通过环境扰动(添加诱饵记录)和场景重写来实现这些模式,从而修改用户指令以部署对抗技术。演化后的任务会重新进行验证,并采用渐进式回退机制,以确保所有最终任务完整且可解,即使完整的对抗性演化失败。

实验

评估在航空、零售和电信领域的十一个 agent-用户对上进行了测试,以比较在新生成的 τc\tau^{c}τc-Bench 与原始 τ\tauτBV 基准上的性能。这些实验验证了 TASTE 流程成功生成了更多样化且结构更复杂的任务,证据是成功率显著降低,这暴露了基准饱和问题并揭示了模型鲁棒性的真实差距。补充分析进一步证实,自适应对比采样方法和验证过程能够可靠地生成有效任务,同时通过序列长度和工具组成实现精确的难度控制。最终,研究结果表明,新基准为持续区分最先进的语言模型提供了一个可扩展且严谨的框架。

作者比较了零售和电信领域的两组基准,一组源自验证版本,另一组由该方法生成。结果显示,生成的基准在工具使用和序列结构上表现出更高的多样性,工具频率分布更加平衡,组合丰富度更高。生成的任务也显示出难度增加,证据是演化版本的成功率相比基础任务更低。与验证基准相比,生成的基准在工具使用和序列结构上具有更高的多样性。生成的基准中工具频率分布更加平衡,归一化熵值增加。演化任务的成功率显著下降,表明生成的基准难度增加。

作者比较了三个领域的两个基准版本 τ2\tau^{2}τ2-Bench 和 τc\tau^{c}τc-Bench,表明后者在任务序列中引入了更高的多样性和复杂性。结果表明,τc\tau^{c}τc-Bench 生成的任务表现出更高的结构变异和更广泛的工具使用模式,导致各种 agent-用户对的性能下降。分析表明,新基准通过要求更多样化和具有挑战性的执行路径,更好地区分了 agent 能力。与 τ2\tau^{2}τ2-Bench 相比,τc\tau^{c}τc-Bench 任务在工具序列和执行路径上显示出显著更高的多样性,这通过 WED 和 TTR 等指标衡量。在 τc\tau^{c}τc-Bench 任务上,agent 的性能 consistently 较低,表明难度增加且最先进模型的饱和程度降低。τc\tau^{c}τc-Bench 中工具使用分布更加平衡,熵值和唯一 n-gram 计数显示出更广泛的领域覆盖。

作者分析了其自适应对比 n-gram 模型在提高采样工具序列有效性方面的效果,显示通过迭代训练和使用负证据取得了显著提升。他们还通过比较基础任务与演化版本来评估任务难度,证明演化任务在不同领域中对 agent 来说明显更难解决。随着自适应训练和负证据的使用,采样工具序列的有效性显著提高,从 6.7% 的基线增加到 86.7%。演化任务比基础任务困难得多,成功率根据 agent 和领域下降 16-55%。模型的设计选择导致生成任务的多样性和复杂性大幅增加,更高的覆盖指标和更多变的执行路径证明了这一点。

作者比较了各种 agent-用户对在两个基准版本上的性能,显示新基准在所有 agent 和领域中一致导致性能下降。此前在原始基准上取得高分的 agent 性能下降尤为明显,表明新基准揭示了以前隐藏的限制,并能够更好地区分最先进模型。结果表明,新基准任务更多样化和具有挑战性,需要更多样化和复杂的执行路径。与原始基准相比,新基准上的性能大幅下降,此前在原始基准上得分最高的 agent 下降最为显著。新基准任务需要更多样化和复杂的执行路径,所有领域的覆盖率和多样性指标增加证明了这一点。性能下降在不同 agent-用户对和领域中保持一致,表明新基准有效暴露了当前模型的局限性。

作者将生成的任务与原始基准进行比较,显示其任务在多个领域中表现出更高的多样性和复杂性。结果表明,新任务导致各种 agent 的性能显著降低,这表明原始基准可能已经饱和。由于结构变异增加、工具使用多样性更大以及执行路径更长,任务更具挑战性,加权编辑距离和类型标记比等指标支持了这一结论。新任务中工具使用分布更加平衡,表明对任务空间的探索更广泛。新任务 across agents 显示出显著降低的性能,表明与原始基准相比难度更高。加权编辑距离和类型标记比等指标揭示了新任务中更高的多样性和复杂性。新任务中工具使用分布更加均匀,减少了偏度并增加了对工具空间的覆盖。

实验在多个领域将新生成的基准与原始验证版本进行比较,以评估任务多样性、生成有效性和模型性能。演化任务 consistently 表现出更高的结构复杂性、更平衡的工具使用和更广泛的执行路径,这大幅降低了 agent 的成功率。这种性能下降,尤其是在以前得分较高的模型中,证实了原始基准已经饱和,并验证了新方法作为区分当前 AI 能力的更严谨标准。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供