@article{ye2026claw, title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others}, journal={arXiv preprint arXiv:2604.06132}, year={2026} }

日付

3時間後

データセット構成

Paper URL

2604.06132

ライセンス

MIT

タグ

マルチモーダル

ベンチマーク

エージェント

Claw-Evalは、北京大学が香港大学と共同で2026年に公開した、実世界のタスクにおけるAIエージェントの評価のためのエンドツーエンドの透過的な評価ベンチマークデータセットです。関連する研究論文は以下のとおりです。 Claw-Eval：自律エージェントの信頼性の高い評価に向けて本研究は、自律型インテリジェントエージェントがタスクを実行し、ツールを呼び出し、マルチモーダル現象を理解し、現実世界環境で相互作用する能力を評価することを目的としています。エージェントシステム評価、自動タスク実行、マルチモーダルインテリジェントエージェント研究、大規模モデル能力分析などに幅広く活用されています。このデータセットは英語と中国語の両方をサポートしており、一般、マルチモーダル、マルチターンという3つの主要なタスクグループを含み、コミュニケーション、財務、オフィス、生産性ツールなど、合計24のタスクカテゴリを網羅しています。

データセットの構成:

概要：コミュニケーション、財務、業務、オフィス生産性など24のカテゴリを網羅する、161の主要なエージェント業務が含まれています。
マルチモーダル：ウェブページ生成、ビデオによる質問応答、文書情報抽出などのシナリオを網羅する、101種類のマルチモーダルエージェントタスクが含まれています。
複数ターン対話：このセクションには、エージェントがシミュレーションされたユーザーと複数ラウンドにわたって対話し、ニーズを明確にし、提案を生成する必要がある、38の複数ターン対話タスクが含まれています。

データフィールド:

task_id: タスクの一意の識別子
クエリ: タスクの指示またはタスクの説明
フィクスチャ：タスクに必要な補助ファイルのリスト
言語: タスク言語
カテゴリ：タスクが属するドメインまたはカテゴリ

引用

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用 Discordで議論

日付

3時間後

データセット構成

Paper URL

2604.06132

ライセンス

MIT

タグ

マルチモーダル

ベンチマーク

エージェント

データセットの構成:

概要：コミュニケーション、財務、業務、オフィス生産性など24のカテゴリを網羅する、161の主要なエージェント業務が含まれています。
マルチモーダル：ウェブページ生成、ビデオによる質問応答、文書情報抽出などのシナリオを網羅する、101種類のマルチモーダルエージェントタスクが含まれています。
複数ターン対話：このセクションには、エージェントがシミュレーションされたユーザーと複数ラウンドにわたって対話し、ニーズを明確にし、提案を生成する必要がある、38の複数ターン対話タスクが含まれています。

データフィールド:

task_id: タスクの一意の識別子
クエリ: タスクの指示またはタスクの説明
フィクスチャ：タスクに必要な補助ファイルのリスト
言語: タスク言語
カテゴリ：タスクが属するドメインまたはカテゴリ

引用

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

MathNetマルチモーダル数学ベンチマーク推論データセット

4時間後

眼底疾患分類データセット

5時間後

長距離山火事・煙検知データセット

5時間後

QCalEval 量子較正グラフの理解データセット

3時間後

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

3時間後

PanScaleリモートセンシングPancolorシャープニングデータセット

5日前

ParseBench文書解析能力評価データセット

7日前

OpenMementos コンテキストメモリ圧縮データセット

7日前

MIA多段階推論および決定軌跡データセット

15日前

OmniParsingBench マルチモーダル構文解析機能評価データセット

20日前

MDPBench 多言語文書解析ベンチマークデータセット

20日前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Claw-Eval実世界ベンチマークデータセット

データセットの構成:

データフィールド:

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

Claw-Eval実世界ベンチマークデータセット

データセットの構成:

データフィールド:

引用

関連データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

Claw-Eval実世界ベンチマークデータセット

データセットの構成:

データフィールド:

引用

関連データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

関連データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット