Agent = Modèle + Harness
Une nouvelle étude démontre que la performance des agents d'intelligence artificielle dépend davantage de leur système d'exécution, ou harnais, que du modèle de langage sous-jacent. L'équation fondamentale établie est : Agent = Modèle + Harnais. Le harnais constitue la couche système responsable de la gestion du contexte, des outils, de l'état, des permissions, de la traçabilité et de la récupération après erreur. Un benchmark appelé Harness-Bench, impliquant 106 tâches en bac à sable et six configurations de harnais différentes, a révélé que le changement de harnais sur un même modèle pouvait faire varier les scores de près de 24 points. Par exemple, le harnais NanoBot a obtenu un score de 76,2, tandis qu'OpenClaw n'en a obtenu que 52,4, sur les mêmes tâches et avec le même pool de modèles. Cela prouve que l'architecture d'exécution joue un rôle prépondérant. L'analyse des échecs révèle que la plupart des erreurs ne sont pas dues à un manque de raisonnement, mais à des problèmes de traduction et de tenue des registres. Les violations de format et de contrat représentent 36,4 % des échecs, suivies par les erreurs d'outils sans mécanisme de récupération (24,6 %). Dans de nombreux cas, le modèle comprend la tâche et produit une réflexion valide, mais le harnais échoue à transformer cette réflexion en un résultat concret et vérifiable, comme l'écriture d'un fichier ou la mise à jour d'une base de données. Ce concept est qualifié d'alignement de l'exécution, soit la capacité du harnais à maintenir la correspondance entre l'intention, le processus de réflexion, le résultat calculé et la vérification finale. Le harnais agit comme un traducteur qui attache la raison flottante à la réalité exécutable. Toutefois, l'impact du harnais varie selon la puissance du modèle. Les modèles faibles sont fortement dépendants de la qualité du harnais, tandis que les modèles forts parviennent à tolérer des variations importantes dans la gestion de l'état ou des outils, rendant le harnais moins critique au fur et à mesure que les capacités de raisonnement augmentent. La tendance observée favorise la simplicité sur la complexité. NanoBot, conçu comme un agent ultra-léger avec une boucle de fonctionnement minimale, a obtenu le meilleur score parmi les systèmes configurables, tout en consommant moins de tokens et d'étapes que des solutions plus lourdes comme Hermes. À l'inverse, des systèmes plus élaborés ont montré une efficacité moindre. Le score le plus élevé absolu, 80,4, a été obtenu par Codex, un agent spécialisé dans le codage, indiquant que la spécialisation peut surpasser la flexibilité générale. L'étude évalue six configurations de harnais distinctes : NanoBot (HKUDS), léger et efficace ; Hermes (Nous Research), orienté recherche avec mémoire persistante ; OpenClaw, assistant multimédia riche en fonctionnalités ; ZeroClaw, système de contrôle auto-hébergé axé sur la performance ; Moltis, runtime sécurisé localement ; et NullClaw, exécution minimale et efficace. Ces résultats invitent les ingénieurs à repenser la priorité de leurs architectures. La question centrale n'est plus seulement la puissance du modèle, mais la capacité du système à garantir que le raisonnement se transforme en action vérifiable. Construire un harnais robuste reste essentiel pour les modèles actuels, mais il est nécessaire de déterminer si ces systèmes continueront d'être pertinents à mesure que les modèles deviendront suffisamment autonomes pour ne plus en avoir besoin.
