Command Palette
Search for a command to run...
Claw-Eval実世界ベンチマークデータセット
Claw-Evalは、北京大学が香港大学と共同で2026年に公開した、実世界のタスクにおけるAIエージェントの評価のためのエンドツーエンドの透過的な評価ベンチマークデータセットです。関連する研究論文は以下のとおりです。 Claw-Eval:自律エージェントの信頼性の高い評価に向けて本研究は、自律型インテリジェントエージェントがタスクを実行し、ツールを呼び出し、マルチモーダル現象を理解し、現実世界環境で相互作用する能力を評価することを目的としています。エージェントシステム評価、自動タスク実行、マルチモーダルインテリジェントエージェント研究、大規模モデル能力分析などに幅広く活用されています。 このデータセットは英語と中国語の両方をサポートしており、一般、マルチモーダル、マルチターンという3つの主要なタスクグループを含み、コミュニケーション、財務、オフィス、生産性ツールなど、合計24のタスクカテゴリを網羅しています。
データセットの構成:
- 概要:コミュニケーション、財務、業務、オフィス生産性など24のカテゴリを網羅する、161の主要なエージェント業務が含まれています。
- マルチモーダル:ウェブページ生成、ビデオによる質問応答、文書情報抽出などのシナリオを網羅する、101種類のマルチモーダルエージェントタスクが含まれています。
- 複数ターン対話:このセクションには、エージェントがシミュレーションされたユーザーと複数ラウンドにわたって対話し、ニーズを明確にし、提案を生成する必要がある、38の複数ターン対話タスクが含まれています。
データフィールド:
- task_id: タスクの一意の識別子
- クエリ: タスクの指示またはタスクの説明
- フィクスチャ:タスクに必要な補助ファイルのリスト
- 言語: タスク言語
- カテゴリ:タスクが属するドメインまたはカテゴリ
引用
@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}