Claude Sonnet 4.6 beherrscht nun Computernutzung per Bildschirminteraktion
Anthropic hat mit dem Release von Claude Sonnet 4.6 einen bedeutenden Schritt hin zu einer neuen Art von KI-Interaktion unternommen: dem eigentlichen „Computergebrauch“. Im Gegensatz zu herkömmlichen agilen Systemen, die auf vorgefertigte APIs zugreifen, um Aufgaben zu erledigen, kann Sonnet 4.6 nun direkt über die grafische Benutzeroberfläche interagieren – wie ein Mensch. Es analysiert Screenshots, entscheidet, wo geklickt oder getippt werden muss, und führt Aktionen aus, ohne dass eine API-Integration erforderlich ist. Dies markiert einen Paradigmenwechsel: von der „Tool-Aufruf“-Logik (Tool Calling) zur echten „Tool-Nutzung“ (Tool Using), bei der die KI die Software wie ein Benutzer bedient. Sonnet 4.6 ist keine neue Modellfamilie, sondern ein Upgrade von Sonnet 4.5 – mit gleichem Kontextfenster und Preis, aber deutlich verbessertem Leistungsniveau. In Tests bevorzugten Nutzer es gegenüber der vorherigen Version in etwa 70 % der Fälle und übertrafen sogar Claude Opus 4.5 (November 2025) in 59 % der Vergleiche. Besonders hervorzuheben sind Verbesserungen in der adaptiven Denkweise, der Befehlsausführung und der Reduzierung von Überkomplexität. Doch der echte Durchbruch liegt im Computer-Use-Feature, das über die reine Textverarbeitung hinausgeht. Die Architektur ist vergleichsweise einfach: Der Agent erhält eine Aufgabe wie „Fülle diesen Ausgabenbericht aus“ oder „Suche Flüge nach London“. Er macht einen Screenshot, analysiert die aktuelle Bildschirmansicht, plant eine Aktion (z. B. Mausklick an bestimmte Koordinaten), die Umgebung führt sie aus, und der Prozess wiederholt sich. Die KI sieht nur Pixel – genau wie ein Mensch – und reagiert dynamisch auf visuelle Rückmeldungen. Allerdings ist dieser Ansatz ineffizient: Jede Aktion erfordert einen vollständigen Roundtrip – Screenshot, Upload, Verarbeitung, Entscheidung, Ausführung – was bei 20 Schritten mehrere Minuten dauern kann. Zudem verursachen Screenshots zusätzliche Kosten, da sie als Vision-Tokens verarbeitet werden und auf 1568 Pixel begrenzt sind. Daher empfiehlt Anthropic, den Ansatz für zeitunempfindliche Aufgaben wie Hintergrundrecherche, automatisiertes Testen oder Batch-Verarbeitung zu nutzen. Ein intelligenter Agent nutzt nicht ausschließlich Screenshots, sondern greift bei Bedarf auf Bash, Texteditor oder andere Tools zurück – je nach Effizienz. Die KI entscheidet, welcher Kanal am besten funktioniert. Die Implementierung erfolgt über einen klassischen Agenten-Loop mit Tool-Definitionen. Mit einem Docker-Container kann man die Funktionalität einfach selbst testen. Die Referenzimplementierung beinhaltet alle notwendigen Komponenten und lässt sich mit wenigen Befehlen starten. Nach dem Start ist über http://localhost:8080 direkt zu sehen, wie Claude eine echte Oberfläche bedient. Industrieexperten sehen in diesem Schritt eine entscheidende Entwicklung: KI wird zunehmend selbstständig und handlungsorientiert. Anthropic positioniert sich damit als Vorreiter im Bereich „embodied AI“ – KI, die physisch in der Welt agiert. Obwohl die Technologie noch nicht für Echtzeit-Anwendungen geeignet ist, eröffnet sie neue Möglichkeiten für Automatisierung, Forschung und Entwicklung. Die Kombination aus visueller Wahrnehmung und kontextbezogenem Handeln könnte künftig die Grenzen zwischen Software und menschlicher Interaktion neu definieren.
