HyperAIHyperAI

Command Palette

Search for a command to run...

Claude Sonnet 4.6 révolutionne l’IA : quand l’agent virtuel utilise un ordinateur comme un humain, sans API

L’introduction de Claude Sonnet 4.6 par Anthropic marque une avancée significative dans l’évolution des systèmes d’intelligence artificielle agents, en passant d’un modèle qui appelle des outils via des API à un système capable de utiliser des logiciels comme un humain le ferait, directement à travers l’interface graphique. Cette distinction est fondamentale : l’appel d’API suppose que chaque fonctionnalité soit préalablement exposée via une interface technique, limitant ainsi l’action à ce qui a été codé. En revanche, l’utilisation informatique permet à l’IA de percevoir l’écran via des captures d’écran, d’interagir avec les éléments visuels (cliquer, taper, faire défiler) et de s’adapter dynamiquement au résultat, sans besoin d’API. Sonnet 4.6 n’est pas une nouvelle famille de modèles, mais une mise à jour de Sonnet 4.5, avec les mêmes coûts, la même fenêtre contextuelle, mais une performance globalement améliorée. Des tests internes montrent que 70 % des utilisateurs préfèrent Sonnet 4.6 à Sonnet 4.5, et 59 % le préfèrent à Opus 4.5 (novembre 2025), ce qui est remarquable pour un modèle de la série Sonnet. Les améliorations portent sur une pensée adaptative (ajustement du niveau de raisonnement selon la complexité), une meilleure compréhension des instructions et une réduction du surdimensionnement des solutions. Le cœur de la nouveauté réside dans la fonctionnalité d’utilisation de l’ordinateur. Le processus repose sur une boucle itérative : l’IA reçoit une tâche (ex. « remplir un rapport de frais »), prend une capture d’écran, analyse l’interface, décide de l’action (ex. clic sur un bouton), l’environnement exécute cette action, puis une nouvelle capture est prise. Ce cycle se répète jusqu’à la résolution complète. L’IA ne voit que des pixels, comme un humain, et doit raisonner en temps réel sur ce qu’elle perçoit. Cependant, cette approche présente des limites : chaque action entraîne un round trip complet (capture, traitement, décision, exécution), ce qui ralentit considérablement les opérations. Une tâche de 20 étapes peut prendre 2 à 3 minutes, et chaque capture est facturée en tokens vision (max 1568 px, ~1,15 mégapixels). Anthropic recommande donc cette fonction pour des cas où la vitesse n’est pas critique : recherche d’information en arrière-plan, tests automatisés, traitement par lots. Un agent intelligent ne dépend pas exclusivement des captures d’écran. Il utilise les outils appropriés : bash pour les commandes, éditeur de texte pour lire des fichiers, et ne recourt aux screenshots que lorsque l’interaction visuelle est indispensable. Cette stratégie hybride permet d’éviter le goulot d’étranglement visuel. La mise en œuvre est accessible via une référence complète en Docker. En lançant le conteneur fourni par Anthropic, on accède à une interface web (localhost:8080) où l’on peut observer Claude interagir directement avec un environnement réel, en utilisant la souris, le clavier et les fenêtres comme un utilisateur humain. En résumé, Claude Sonnet 4.6 représente une transition majeure vers une IA plus autonome et plus intégrée aux systèmes réels, non pas en s’insérant dans des APIs, mais en les utilisant comme un être humain le ferait. Bien que limitée par la latence et les coûts, cette approche ouvre la voie à des agents capables d’accomplir des tâches complexes sans infrastructure préalable. Évaluation : Des experts du secteur soulignent que cette technologie pourrait transformer les tests logiciels, l’automatisation de tâches répétitives et l’assistance utilisateur. Cependant, la dépendance aux captures d’écran reste un frein à l’adoption à grande échelle. Anthropic, en proposant une implémentation ouverte, encourage l’innovation tout en mettant en garde contre les attentes de performance en temps réel. Cette évolution illustre bien la tendance vers des agents plus autonomes, mais aussi plus pragmatiques.

Liens associés

Claude Sonnet 4.6 révolutionne l’IA : quand l’agent virtuel utilise un ordinateur comme un humain, sans API | Articles tendance | HyperAI