HyperAIHyperAI

Command Palette

Search for a command to run...

10 小时前
Agent
基准

WeaveBench:一个用于具有混合界面的计算机使用 Agents 的长周期、真实世界基准测试

Wanli Li Bowen Zhou Yunyao Yu Zhou Xu Yifan Yang Dongsheng Li Caihua Shan

摘要

计算机使用 agents(CUAs)日益在结合可视化桌面控制、命令行执行、代码编辑、浏览器和外部工具的运行时环境中运行。然而,现有的基准测试通常将这些接口作为独立的能力进行评估,导致长周期跨接口编排能力缺乏充分测试。因此,我们推出 WeaveBench,这是一个包含 114 个任务的长周期混合接口基准测试,涵盖 8 个真实工作领域,基于真实的用户请求和可公开验证的成果。每个任务均要求 agents 在单一轨迹内结合图形用户界面(GUI)的观察/操作与命令行(CLI)/代码操作。我们在部署的 CLI-agent 运行时环境中,基于真实的 Ubuntu 桌面,并辅以最小化的桌面控制插件,对这些任务进行了评估。我们还提出了一种配套的轨迹感知评估器,用于检查交付物、文件、截图、日志和操作轨迹,同时检测捷径行为,例如伪造的视觉证据或硬编码的指标。在前沿模型与运行时的配对测试中,最佳 PassRate 仅为 41.2%,表明该基准测试远未达到饱和状态。轨迹感知评估器进一步揭示,仅基于结果的评分方式会严重高估 agent 的性能。总体而言,WeaveBench 揭示了 CUA 评估中的一个关键空白,并提供了一个有效的测试平台,用于衡量 agents 是否能够在长周期的真实任务中编排 GUI、CLI 和代码操作。

一句话总结

WEAVEBENCH 引入了一个涵盖八个真实世界领域、包含 114 项任务的长周期基准测试,用于评估计算机使用 Agent 在混合 GUI、CLI 和代码编排方面的能力。该基准测试配备了一个轨迹感知裁判,用于验证多步执行过程并检测捷径行为,从而揭示与以往孤立界面评估相比,仅基于结果的评分会严重高估性能。

核心贡献

  • 提出 WEAVEBENCH 作为长周期混合界面基准测试,涵盖八个真实世界领域的 114 项任务,要求 Agent 在单一执行轨迹中将图形用户界面操作与命令行及代码操作交替执行。
  • 开发了一种轨迹感知 Agent 裁判,通过自主重新获取截图、日志和文件状态来审计多轮 Agent 行为,对过程和结果维度进行评分,并主动检测伪造视觉内容或硬编码指标等捷径行为。
  • 在已部署的运行环境与前沿模型配对上的评估表明,该基准测试仍未饱和,最高 PassRate 仅为 41.2%,且轨迹感知审计纠正了仅基于结果评分导致的严重性能虚高。

引言

现代计算机使用 Agent 越来越多地集成图形桌面控制、命令行界面和外部工具,以管理复杂的生产工作流。这种混合架构至关重要,因为可视化界面暴露的是瞬态交互状态,而代码环境提供的是结构化、持久的数据,这使得真正的跨界面协调成为现实自动化的关键。然而,现有基准测试仅评估单通道交互,或设计仅通过单一界面即可解决的任务,未能测试真正的混合编排能力。为弥补这一空白,作者提出了 WEAVEBENCH,该基准测试包含 114 项真实世界任务,严格要求将 GUI 观察与 CLI 或代码执行交替进行。作者将这些任务部署到实际的 Agent 运行环境中,并将其与轨迹感知评估系统配对,该系统审计多步过程而非仅关注最终输出。作者利用该框架证明,当前模型在长周期跨界面协调方面仍存在困难,从而将 WEAVEBENCH 确立为推进混合计算机使用 Agent 发展的严格测试平台。

数据集

数据集构成与来源

  • 作者提出了 WEAVEBENCH,这是一个涵盖 8 个真实工作领域、包含 114 项长周期任务的基准测试,旨在评估在混合界面上运行的 Agent。
  • 任务来源于真实用户请求和可公开验证的工件,发布版本包含 174 个溯源 URL,覆盖 82 个独立域名。
  • 来源包括 GitHub 问题与拉取请求、事后复盘报告、设计原型、OPENCLAW 用户社区、Reddit、Stack Exchange、YouTube、项目缺陷跟踪器以及官方文档。
  • 约 80% 的任务链接到至少一个用户痛点来源,即真实用户报告过失败案例,其余任务则依赖项目文档或垂直领域仓库的参考资料。

子集详情与过滤规则

  • 数据集涵盖 8 个领域:桌面生产力、文档处理、游戏与交互式应用、Web 开发、数据分析与可视化、DevOps 与系统管理、空间与 3D/CAD,以及设计与创意。
  • 每个领域包含 10 到 18 项任务,共组织为 23 个子类别,每个领域至少包含 10 项任务以确保统计分辨率。
  • 任务必须满足三项准入标准。首先,通道不可替代性要求成功依赖于在单一轨迹中将 GUI 观察与操作和 CLI 或代码操作交替执行。
  • 其次,长周期执行要求包含多个交替阶段,而非孤立的感知或工具使用步骤。
  • 第三,跨应用状态要求 Agent 能够在多个独立应用程序之间保留并传递信息。
  • 构建遵循一套流水线:专家为每个领域定义协作原型,组装包含环境种子和验证锚点的自包含包,进行独立盲审,并使用三个 Agent 进行试点验证以过滤损坏或过于简单的任务。

使用与处理

  • 作者将该数据集专门用于在真实 Ubuntu 桌面(辅以最小化桌面控制插件)上部署的 CLI-Agent 运行环境中进行评估。
  • 评估采用轨迹感知 Agent 裁判,通过检查交付物、文件、截图、日志和操作轨迹,基于自下而上的评分标准计算得分。
  • 处理流程包含推理阶段的反伪造策略,明确禁止通过绘图库生成虚假 GUI 图像,并允许 Agent 在无法捕获截图时使用诚实的回退机制跳过。
  • 该基准测试记录详细的轨迹统计信息,包括每项任务中位数为 76 次工具调用和 16 次 GUI 到 CLI 的通道切换,最大展开步数达到 471 次工具调用。

元数据构建

  • 元数据通过任务包构建,每个任务均附加包含 URL、提交哈希值和帖子标识符的溯源索引。
  • 任务包包含专家参考轨迹,并标注了所需的单通道原子操作,以便审计通道使用情况。
  • 验证锚点嵌入在元数据中,以支持裁判验证交付物并检测伪造视觉证据或硬编码指标等捷径行为。

实验

评估对比了多种模型 API 与 Agent 运行环境,以确定最佳配对方案,同时专门的消融实验验证了混合 GUI-CLI 接口的严格必要性以及轨迹感知裁判的关键作用。结果表明,任务完成从根本上依赖于多通道协同执行,因为单界面设置的性能会骤降至接近零,这与以往基准测试中混合访问仅提供便利的情况截然不同。定性失败分析显示,系统崩溃主要源于长周期规划纪律性不足和奖励黑客行为,而非视觉感知问题,且不同模型家族中均一致出现了显著的错误模式。最终,该工作确立了精确的模型-运行环境对齐与严格的轨迹审计对于准确衡量和推进前沿 Agent 能力至关重要。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供