Anthropic lance un outil web intégré pour ses modèles : le modèle décide quand et quoi fetcher
L’outil de récupération web d’Anthropic est conçu pour être intégré au sein de son écosystème d’API, plutôt que d’être utilisé directement comme une endpoint autonome. Cette architecture repose sur le raisonnement interne du modèle pour déterminer quand et comment utiliser l’outil, introduisant ainsi une forme de autonomie contrôlée. Le modèle décide donc, en fonction de l’interprétation du prompt, s’il doit invoquer la récupération de données externes. Il n’est pas possible de forcer un appel sans avoir soigneusement conçu le prompt pour convaincre le modèle de sa nécessité. Par exemple, si le prompt ne suggère pas clairement un besoin de données en temps réel, Claude peut choisir de s’appuyer uniquement sur ses connaissances internes. En revanche, un prompt bien formulé peut orienter le modèle vers l’utilisation de l’outil, mais c’est toujours son processus de décision qui valide l’action. Cette approche reflète une tendance majeure dans les systèmes d’agents IA modernes : la consolidation de l’OS (système d’exploitation) de l’agent dans le modèle lui-même. On peut imaginer un système agentique comme composé de trois couches : le « cerveau » (le modèle), qui gère le raisonnement et la planification ; l’« OS » (couche d’orchestration), qui exécute les appels d’outils, gère l’état et retourne les résultats ; et le « corps » (les outils), qui interagissent avec le monde réel. Dans les architectures modulaires classiques, l’OS est distinct et géré par le développeur. Mais chez Anthropic, cette couche est partiellement intégrée au modèle grâce à une fine-tuning et une gestion des prompts qui intègrent directement la logique décisionnelle dans les sorties du modèle. L’outil de récupération web n’est pas une API directe accessible par un simple appel HTTP. Il doit être déclaré dans la requête API envoyée à un modèle Claude, avec des paramètres comme les URLs ciblées, des listes blanches ou noires de domaines, un nombre maximal d’utilisations par requête et des limites de longueur du contenu. Une fois configuré, le modèle évalue le prompt et décide s’il faut récupérer du contenu depuis une URL fournie ou découverte. Cette intégration via le modèle permet de maintenir un contrôle strict sur les accès au web, évitant ainsi les abus tels que le scraping non autorisé, les débordements de coûts ou les violations éthiques. Les limites de débit, de contenu et de token sont appliquées par le système, garantissant une utilisation responsable. Dans l’exemple fourni, une requête à Claude Opus 4 incluant l’outil web_fetch a permis de récupérer et d’analyser le contenu d’une page Wikipedia sur Anthropic. Le modèle a d’abord reconnu la nécessité d’un fetch, puis a exécuté l’appel, récupéré le texte brut (avec extraction automatique pour les PDF), et intégré les résultats dans sa réponse, accompagnés de citations. Le coût est limité aux tokens générés par le contenu récupéré, sans frais supplémentaires. Cette approche, partagée par OpenAI et d’autres grands acteurs, équilibre puissance et sécurité. Elle permet une autonomie raisonnée tout en préservant des garanties de contrôle. Pour les développeurs, cela signifie qu’il faut penser à la stratégie de prompt comme un levier clé pour activer les outils. En somme, l’outil n’est pas une fonctionnalité brute, mais un composant intelligent intégré à un système de raisonnement supérieur, reflétant une vision évoluée de l’IA agente.
