Command Palette
Search for a command to run...
Ensemble De Données De Référence En Monde Réel Claw-Eval
Claw-Eval est un ensemble de données de référence d'évaluation transparent de bout en bout permettant d'évaluer les agents d'IA sur des tâches réelles. Il a été publié en 2026 par l'Université de Pékin en collaboration avec l'Université de Hong Kong. Les articles de recherche associés sont les suivants : Claw-Eval : Vers une évaluation fiable des agents autonomesCe modèle vise à évaluer la capacité des agents intelligents autonomes à accomplir des tâches, à utiliser des outils, à comprendre des phénomènes multimodaux et à interagir dans des environnements réels. Il est largement utilisé dans l'évaluation des systèmes d'agents, l'exécution automatisée de tâches, la recherche sur les agents intelligents multimodaux et l'analyse des capacités des grands modèles. Cet ensemble de données prend en charge l'anglais et le chinois et comprend trois groupes de tâches principaux : Général, Multimodal et Multi-tours, couvrant un total de 24 catégories de tâches telles que la communication, la finance, le bureau et les outils de productivité.
Composition de l'ensemble de données :
- Généralités : Contient 161 tâches d'agent principales, couvrant 24 catégories, dont les communications, les finances, les opérations et la productivité bureautique.
- Multimodal : Comprend 101 tâches d'agent multimodales, couvrant des scénarios tels que la génération de pages Web, la réponse à des questions vidéo et l'extraction d'informations de documents.
- Dialogue à plusieurs tours : cette section contient 38 tâches de dialogue à plusieurs tours, exigeant que l’agent interagisse avec des utilisateurs simulés en plusieurs étapes pour clarifier leurs besoins et générer des suggestions.
Champs de données :
- task_id : Identifiant unique de la tâche
- requête : instructions ou description de la tâche
- fichier de configuration : liste des fichiers auxiliaires requis pour la tâche
- langue : Langue de la tâche
- Catégorie : Le domaine ou la catégorie à laquelle appartient la tâche
Citation
@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.