IBM et UC Berkeley dévoilent les vraies causes des échecs des agents intelligents en entreprise grâce à ITBench et MAST
IBM et l’université de Berkeley ont mené une étude approfondie sur les causes des échecs des systèmes agents basés sur les grands modèles linguistiques (LLM) dans des environnements informatiques d’entreprise, en se concentrant sur des tâches critiques telles que le triage d’incidents, l’analyse de journaux (logs) et de métriques, ainsi que la gestion de clusters Kubernetes dans des séquences d’actions longues. Pour surmonter le problème du « boîte noire » des benchmarks traditionnels — qui se contentent d’un taux de réussite global sans expliquer pourquoi un agent a échoué — les chercheurs ont appliqué MAST (Multi-Agent System Failure Taxonomy), un cadre standardisé pour diagnostiquer les défaillances des systèmes agents. En combinant MAST avec ITBench, un benchmark industriel pour l’automatisation SRE, sécurité et FinOps, ils ont transformé des traces d’exécution brutes en signatures de défaillance structurées, permettant une analyse fine des causes profondes. L’étude a analysé 310 traces d’exécution SRE issues d’agents basés sur trois modèles de différentes catégories : Gemini-3-Flash, Kimi-K2 et GPT-OSS-120B. L’analyse a révélé des différences significatives dans la manière dont ces modèles échouent. Gemini-3-Flash, bien que performant, présente des échecs ciblés et isolés — souvent dus à une vérification incorrecte (FM-3.3) — ce qui en fait un modèle « chirurgical » : une seule erreur majeure suffit à compromettre la tâche. En revanche, GPT-OSS-120B, malgré sa puissance, souffre de défaillances en cascade, avec en moyenne 5,3 modes de défaillance par exécution échouée, témoignant d’une instabilité fondamentale dans la gestion de l’état. Kimi-K2 se situe entre les deux, avec des échecs fréquents liés à un décalage entre raisonnement et action (FM-2.6), souvent causés par des chaînes de raisonnement trop longues et une incapacité à reconnaître la fin d’une tâche. Une découverte clé est la distinction entre défaillances « non fatales » (benignes) et « fatales ». Certaines erreurs, comme la répétition d’actions ou des erreurs mineures de formulation, apparaissent même dans les exécutions réussies. MAST permet de les ignorer pour se concentrer sur les défaillances décisives, telles que l’absence de vérification (FM-3.3), l’ignorance des conditions de terminaison (FM-1.5) ou le décalage raisonnement-action (FM-2.6), qui sont fortement corrélées à l’échec global. Les recommandations d’ingénierie sont précises : pour Gemini-3-Flash, il faut imposer une vérification externe basée sur des preuves concrètes (ex. : alerte résolue, changement d’état dans Kubernetes) avant toute terminaison ; pour Kimi-K2, une machine à états déterministe peut aider à mieux gérer la fin de tâche ; pour GPT-OSS-120B, des mécanismes de « propreté du contexte » et de détection précoce des erreurs sont essentiels pour éviter que de petites incohérences ne dégénèrent en échec total. En somme, MAST transcende les métriques simplistes en offrant une cartographie fine des défaillances, transformant l’évaluation des agents en un outil d’amélioration ingénierie concrète. Cela permet de passer d’un diagnostic généralisé à une stratégie ciblée, fondée sur les vraies causes des échecs — une avancée essentielle pour déployer des systèmes agents fiables en production.
