Command Palette
Search for a command to run...
Claw-Eval : Vers une évaluation fiable des Autonomous Agents
Claw-Eval : Vers une évaluation fiable des Autonomous Agents
Résumé
Voici la traduction de votre texte en français, réalisée selon vos critères de rigueur scientifique et de précision technique :Les Large Language Models (LLM) sont de plus en plus déployés en tant qu'agents autonomes capables d'exécuter des workflows multi-étapes au sein d'environnements logiciels réels. Cependant, les benchmarks d'agents existants souffrent de trois limitations critiques : (1) une évaluation « opaque à la trajectoire » qui ne vérifie que les sorties finales, (2) une évaluation de la sécurité et de la robustesse insuffisamment spécifiée, et (3) une couverture de modalités et des paradigmes d'interaction trop restreints. Nous introduisons Claw-Eval, une suite d'évaluation de bout en bout qui comble ces trois lacunes. Elle comprend 300 tâches vérifiées par des humains, réparties en 9 catégories à travers trois groupes (orchestration de services généraux, perception et génération multimodales, et dialogue professionnel multi-tours). Chaque action de l'agent est enregistrée via trois canaux de preuve indépendants (traces d'exécution, journaux d'audit et instantanés de l'environnement), permettant une notation tenant compte de la trajectoire sur la base de 2 159 items de rubriques granulaires. Le protocole de notation évalue la Complétion, la Sécurité et la Robustesse, en rapportant le Score Moyen, le Pass@k et le Pass^k sur trois essais afin de distinguer la capacité réelle des résultats dus à la chance. Les expériences menées sur 14 modèles de pointe révèlent que : (1) l'évaluation opaque à la trajectoire est systématiquement peu fiable, manquant 44 % des violations de sécurité et 13 % des échecs de robustesse que notre pipeline hybride parvient à détecter ; (2) l'injection d'erreurs contrôlée dégrade principalement la cohérence plutôt que la capacité de pointe, le Pass^3 chutant jusqu'à 24 % tandis que le Pass@3 reste stable ; (3) les performances multimodales varient considérablement, la plupart des modèles étant moins performants sur la vidéo que sur les documents ou les images, et aucun modèle unique ne dominant l'ensemble des modalités. Au-delà du benchmarking, Claw-Eval souligne des directions exploitables pour le développement des agents, éclairant les conditions nécessaires pour construire des agents qui soient non seulement capables, mais aussi déployables de manière fiable.