@article{ye2026claw, title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others}, journal={arXiv preprint arXiv:2604.06132}, year={2026} }

Utiliser ce jeu de données Discuter sur Discord

Date

dans 3 heures

Organisation

URL du document

2604.06132

Licence

MIT

Balises

Multimodal

Benchmarks

Agent

Claw-Eval est un ensemble de données de référence d'évaluation transparent de bout en bout permettant d'évaluer les agents d'IA sur des tâches réelles. Il a été publié en 2026 par l'Université de Pékin en collaboration avec l'Université de Hong Kong. Les articles de recherche associés sont les suivants : Claw-Eval : Vers une évaluation fiable des agents autonomesCe modèle vise à évaluer la capacité des agents intelligents autonomes à accomplir des tâches, à utiliser des outils, à comprendre des phénomènes multimodaux et à interagir dans des environnements réels. Il est largement utilisé dans l'évaluation des systèmes d'agents, l'exécution automatisée de tâches, la recherche sur les agents intelligents multimodaux et l'analyse des capacités des grands modèles. Cet ensemble de données prend en charge l'anglais et le chinois et comprend trois groupes de tâches principaux : Général, Multimodal et Multi-tours, couvrant un total de 24 catégories de tâches telles que la communication, la finance, le bureau et les outils de productivité.

Composition de l'ensemble de données :

Généralités : Contient 161 tâches d'agent principales, couvrant 24 catégories, dont les communications, les finances, les opérations et la productivité bureautique.
Multimodal : Comprend 101 tâches d'agent multimodales, couvrant des scénarios tels que la génération de pages Web, la réponse à des questions vidéo et l'extraction d'informations de documents.
Dialogue à plusieurs tours : cette section contient 38 tâches de dialogue à plusieurs tours, exigeant que l’agent interagisse avec des utilisateurs simulés en plusieurs étapes pour clarifier leurs besoins et générer des suggestions.

Champs de données :

task_id : Identifiant unique de la tâche
requête : instructions ou description de la tâche
fichier de configuration : liste des fichiers auxiliaires requis pour la tâche
langue : Langue de la tâche
Catégorie : Le domaine ou la catégorie à laquelle appartient la tâche

Citation

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

dans 4 heures

Ensemble De Données De Classification Des Maladies Du Fond d'œil

dans 5 heures

Ensemble De Données Sur La Détection Des Feux De Forêt Et De La Fumée À Longue Distance

dans 5 heures

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

dans 3 heures

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

dans 3 heures

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

il y a 5 jours

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

il y a 7 jours

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

il y a 7 jours

Ensemble De Données MIA Sur Les Trajectoires d'inférence Et De Décision Multi-étapes

il y a 15 jours

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

il y a 20 jours

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a 20 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

dans 3 heures

Organisation

URL du document

2604.06132

Licence

MIT

Balises

Multimodal

Benchmarks

Agent