Construire des agents intelligents reste un défi complexe, malgré les progrès des outils
Construire des agents intelligents reste un défi complexe, malgré les avancées récentes dans les modèles d’intelligence artificielle. En novembre 2025, une expérience pratique a confirmé que les abstractions proposées par les SDKs existants — qu’il s’agisse de Vercel AI SDK, OpenAI ou Anthropic — peinent à tenir face aux exigences réelles des agents, notamment lorsqu’il s’agit d’utiliser des outils externes. Bien que ces frameworks simplifient certaines interactions de base, ils introduisent des limitations critiques : les différences entre modèles sont trop importantes pour permettre une abstraction uniforme, et les gestionnaires de cache ou les erreurs liées aux outils côté fournisseur (comme les recherches web d’Anthropic avec Vercel) peuvent corrompre l’historique des messages ou rendre les diagnostics obscurs. La gestion du cache est un cas particulier : alors que certains fournisseurs cachent cette logique, Anthropic impose une gestion explicite. À première vue, cela semble contraignant, mais en réalité, cela offre une maîtrise précise des coûts et une flexibilité inégalée. En plaçant des points de cache stratégiquement — après le prompt système, au début de la conversation, et en ajustant dynamiquement leur position — il devient possible de faire évoluer plusieurs branches d’un raisonnement simultanément ou d’éditer le contexte sans perdre la cohérence. Cette approche, bien que plus exigeante, permet une meilleure compréhension du comportement de l’agent. La réinforcement (ou renforcement) dans la boucle d’agent s’est révélée plus cruciale que prévu. À chaque appel d’outil, il est possible de renvoyer non seulement les résultats, mais aussi des informations contextuelles : rappels d’objectifs, états des tâches, indices pour corriger une erreur, ou signalement de changements d’état dans l’environnement. Des outils comme le « todo write » dans Claude Code, qui ne fait que répéter les tâches, montrent que même une simple boucle de répétition peut améliorer significativement la progression de l’agent. L’isolement des échecs est essentiel pour éviter que les erreurs ne contaminent toute la boucle. Deux stratégies s’imposent : exécuter les tâches itératives dans des sous-agents autonomes, qui ne rapportent que le succès (avec un résumé des échecs), ou utiliser l’édition de contexte (disponible chez Anthropic), qui permet d’éliminer des fragments d’historique non productifs. Cependant, cette dernière technique invalide automatiquement le cache, ce qui crée un dilemme entre efficacité et coût. Un système de fichiers virtuel s’est imposé comme fondement essentiel pour le partage d’état entre outils. Que ce soit pour générer une image, l’extraire, la compresser ou l’analyser, la capacité à lire et écrire dans un espace commun est indispensable. Cela nécessite que tous les outils — exécution de code, inférence, génération — soient conçus pour travailler avec des chemins de fichiers partagés. L’outil de sortie, quant à lui, pose des défis inattendus. Contrairement à une sortie directe via le flux principal, un outil dédié (comme un envoi d’e-mail) est difficile à contrôler en termes de ton, de style ou de confidentialité. L’essai d’un modèle secondaire (Gemini 2.5 Flash) pour ajuster le ton a échoué : il a augmenté la latence, réduit la qualité et parfois révélé des étapes internes non destinées à l’utilisateur. Enfin, le choix du modèle reste fortement dépendant de la tâche : Haiku et Sonnet d’Anthropic sont toujours les meilleurs appelants d’outils, tandis que Gemini 2.5 excelle pour les documents volumineux ou les images. Le coût en tokens n’est pas le seul critère : un modèle plus performant peut réduire le nombre d’itérations, donc le coût global. Enfin, l’évaluation des agents reste le plus grand défi. L’agenticité rend les tests traditionnels inopérants, car les comportements émergent de l’interaction dynamique. Aucune solution d’observabilité ou d’instrumentation n’a encore convaincu, ce qui freine sérieusement le développement. Enfin, des expérimentations avec Amp montrent une approche prometteuse, basée sur des sous-agents interagissant de manière fluide, et une conception réellement utilisée par ses créateurs. Cela souligne que, malgré les progrès, l’ingénierie d’agents reste un domaine en mutation, où la clarté du design et la maîtrise fine des interactions sont encore plus importantes que les outils eux-mêmes.
