@article{ye2026claw, title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others}, journal={arXiv preprint arXiv:2604.06132}, year={2026} }

日期

3 小时内

数据集组织

论文 URL

2604.06132

许可证

MIT

标签

多模态

基准

Agent

Claw-Eval 是由北京大学联合香港大学于 2026 年发布的一个面向 AI Agent 真实世界任务评测的端到端透明评测基准数据集，相关论文成果为 Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents，旨在评估自主智能体在真实环境中的任务执行、工具调用、多模态理解及多轮交互能力，广泛应用于 Agent 系统评测、自动化任务执行、多模态智能体研究及大模型能力分析等方向。该数据集支持英文与中文两种语言，包含 General 、 Multimodal 与 Multi-turn 三个核心任务组，共覆盖通信、金融、办公、生产力工具等 24 个任务类别。

数据集构成：

general（通用）：包含 161 个核心 Agent 任务，覆盖通信、金融、运营、办公生产力等 24 个类别
multimodal（多模态）：包含 101 个多模态 Agent 任务，涉及网页生成、视频问答、文档信息抽取等场景
multi_turn（多轮对话）：包含 38 个多轮对话任务，要求 Agent 与模拟用户进行多轮交互以完成需求澄清与建议生成

数据字段：

task_id：任务唯一标识符
query：任务指令或任务描述
fixture：任务所需的辅助文件列表
language：任务语言
category：任务所属领域类别

Citation

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

3 小时内

数据集组织

论文 URL

2604.06132

许可证

MIT

标签

多模态

基准

Agent

数据集构成：

general（通用）：包含 161 个核心 Agent 任务，覆盖通信、金融、运营、办公生产力等 24 个类别
multimodal（多模态）：包含 101 个多模态 Agent 任务，涉及网页生成、视频问答、文档信息抽取等场景
multi_turn（多轮对话）：包含 38 个多轮对话任务，要求 Agent 与模拟用户进行多轮交互以完成需求澄清与建议生成

数据字段：

task_id：任务唯一标识符
query：任务指令或任务描述
fixture：任务所需的辅助文件列表
language：任务语言
category：任务所属领域类别

Citation

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

MathNet 多模态数学基准推理数据集

3 小时内

Eye Disease Classification Fundus 眼底疾病分类数据集

5 小时内

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

5 小时内

QCalEval 量子校准图表理解数据集

3 小时内

RSRCC 遥感区域变化理解基准数据集

3 小时内

PanScale 遥感全色锐化数据集

5 天前

ParseBench 文档解析能力评测数据集

7 天前

OpenMementos 上下文记忆压缩数据集

7 天前

MIA 多步推理与决策轨迹数据集

15 天前

OmniParsingBench 多模态解析能力评估数据集

20 天前

MDPBench 多语言文档解析基准数据集

20 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Claw-Eval 真实世界评测基准数据集

数据集构成：

数据字段：

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Claw-Eval 真实世界评测基准数据集

数据集构成：

数据字段：

Citation

相关数据集

MathNet 多模态数学基准推理数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Claw-Eval 真实世界评测基准数据集

数据集构成：

数据字段：

Citation

相关数据集

MathNet 多模态数学基准推理数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MathNet 多模态数学基准推理数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

相关数据集

MathNet 多模态数学基准推理数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

ParseBench 文档解析能力评测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集