HyperAIHyperAI

Command Palette

Search for a command to run...

Claw-Eval : Vers une évaluation fiable des Autonomous Agents

Résumé

Voici la traduction de votre texte en français, réalisée selon vos critères de rigueur scientifique et de précision technique :Les Large Language Models (LLM) sont de plus en plus déployés en tant qu'agents autonomes capables d'exécuter des workflows multi-étapes au sein d'environnements logiciels réels. Cependant, les benchmarks d'agents existants souffrent de trois limitations critiques : (1) une évaluation « opaque à la trajectoire » qui ne vérifie que les sorties finales, (2) une évaluation de la sécurité et de la robustesse insuffisamment spécifiée, et (3) une couverture de modalités et des paradigmes d'interaction trop restreints. Nous introduisons Claw-Eval, une suite d'évaluation de bout en bout qui comble ces trois lacunes. Elle comprend 300 tâches vérifiées par des humains, réparties en 9 catégories à travers trois groupes (orchestration de services généraux, perception et génération multimodales, et dialogue professionnel multi-tours). Chaque action de l'agent est enregistrée via trois canaux de preuve indépendants (traces d'exécution, journaux d'audit et instantanés de l'environnement), permettant une notation tenant compte de la trajectoire sur la base de 2 159 items de rubriques granulaires. Le protocole de notation évalue la Complétion, la Sécurité et la Robustesse, en rapportant le Score Moyen, le Pass@k et le Pass^k sur trois essais afin de distinguer la capacité réelle des résultats dus à la chance. Les expériences menées sur 14 modèles de pointe révèlent que : (1) l'évaluation opaque à la trajectoire est systématiquement peu fiable, manquant 44 % des violations de sécurité et 13 % des échecs de robustesse que notre pipeline hybride parvient à détecter ; (2) l'injection d'erreurs contrôlée dégrade principalement la cohérence plutôt que la capacité de pointe, le Pass^3 chutant jusqu'à 24 % tandis que le Pass@3 reste stable ; (3) les performances multimodales varient considérablement, la plupart des modèles étant moins performants sur la vidéo que sur les documents ou les images, et aucun modèle unique ne dominant l'ensemble des modalités. Au-delà du benchmarking, Claw-Eval souligne des directions exploitables pour le développement des agents, éclairant les conditions nécessaires pour construire des agents qui soient non seulement capables, mais aussi déployables de manière fiable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp