Command Palette
Search for a command to run...
Claw-Eval 真实世界评测基准数据集
Claw-Eval 是由北京大学联合香港大学于 2026 年发布的一个面向 AI Agent 真实世界任务评测的端到端透明评测基准数据集,相关论文成果为 Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents,旨在评估自主智能体在真实环境中的任务执行、工具调用、多模态理解及多轮交互能力,广泛应用于 Agent 系统评测、自动化任务执行、多模态智能体研究及大模型能力分析等方向。 该数据集支持英文与中文两种语言,包含 General 、 Multimodal 与 Multi-turn 三个核心任务组,共覆盖通信、金融、办公、生产力工具等 24 个任务类别。
数据集构成:
- general(通用):包含 161 个核心 Agent 任务,覆盖通信、金融、运营、办公生产力等 24 个类别
- multimodal(多模态):包含 101 个多模态 Agent 任务,涉及网页生成、视频问答、文档信息抽取等场景
- multi_turn(多轮对话):包含 38 个多轮对话任务,要求 Agent 与模拟用户进行多轮交互以完成需求澄清与建议生成
数据字段:
- task_id:任务唯一标识符
- query:任务指令或任务描述
- fixture:任务所需的辅助文件列表
- language:任务语言
- category:任务所属领域类别
Citation
@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}