HyperAIHyperAI

Command Palette

Search for a command to run...

Claw-Eval 真实世界评测基准数据集

日期

3 小时内

数据集组织

The University of Hong Kong

论文 URL

2604.06132

许可证

MIT

Claw-Eval 是由北京大学联合香港大学于 2026 年发布的一个面向 AI Agent 真实世界任务评测的端到端透明评测基准数据集,相关论文成果为 Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents,旨在评估自主智能体在真实环境中的任务执行、工具调用、多模态理解及多轮交互能力,广泛应用于 Agent 系统评测、自动化任务执行、多模态智能体研究及大模型能力分析等方向。 该数据集支持英文与中文两种语言,包含 General 、 Multimodal 与 Multi-turn 三个核心任务组,共覆盖通信、金融、办公、生产力工具等 24 个任务类别。

数据集构成:

  • general(通用):包含 161 个核心 Agent 任务,覆盖通信、金融、运营、办公生产力等 24 个类别
  • multimodal(多模态):包含 101 个多模态 Agent 任务,涉及网页生成、视频问答、文档信息抽取等场景
  • multi_turn(多轮对话):包含 38 个多轮对话任务,要求 Agent 与模拟用户进行多轮交互以完成需求澄清与建议生成

数据字段:

  • task_id:任务唯一标识符
  • query:任务指令或任务描述
  • fixture:任务所需的辅助文件列表
  • language:任务语言
  • category:任务所属领域类别

Citation

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供