Google stellt neuen KI-Modell vor, das wie ein Nutzer im Browser agiert
Google präsentiert mit Gemini 2.5 Computer Use eine neue Version seines KI-Modells, das in der Lage ist, Webseiten und grafische Benutzeroberflächen wie ein Mensch zu bedienen. Das Modell nutzt fortgeschrittene visuelle Wahrnehmungs- und Schlussfolgerungsfähigkeiten, um Anfragen zu verstehen und Aufgaben im Browser auszuführen – etwa das Ausfüllen und Absenden von Formularen, das Navigieren durch Webseiten oder das Interagieren mit Elementen wie Dropdowns und Schiebereglern. Im Gegensatz zu anderen Ansätzen beschränkt sich die Funktion auf den Browser und nicht auf die gesamte Betriebssystemebene, weshalb es derzeit nicht für Aktionen auf Desktop-Ebene optimiert ist. Es unterstützt 13 spezifische Aktionen, darunter Tippen, Klicken, Scrollen und Ziehen-und-Ablegen. Das Modell ist Teil der Weiterentwicklung von Google’s KI-Agenten und wird bereits in Projekten wie AI Mode und Project Mariner eingesetzt, bei denen KI-Systeme autonom Aufgaben im Browser erledigen, beispielsweise Einkäufe basierend auf einer Zutatenliste. Die Funktion ist nun auch für Entwickler über Google AI Studio und Vertex AI verfügbar. Ein Demo-Portal namens Browserbase ermöglicht es, die Fähigkeiten live zu beobachten – etwa, wie die KI ein Spiel wie 2048 spielt oder aktuelle Diskussionen auf Hacker News sucht. Google betont, dass Gemini 2.5 Computer Use auf mehreren Web- und Mobil-Steuerungsbenchmarks die führenden Konkurrenzmodelle schlägt und dabei eine geringere Latenz aufweist. Der Kern des Systems liegt in der neuen computer_use-Funktion im Gemini-API, die in einer Schleife betrieben wird. Eingaben sind die Benutzeranfrage, ein Screenshot des aktuellen Bildschirmzustands und eine Historie der vorherigen Aktionen. Entwickler können zudem bestimmte Aktionen ausschließen oder benutzerdefinierte Funktionen hinzufügen. Sicherheit spielt eine zentrale Rolle. Google hat Sicherheitsfunktionen direkt in das Modell integriert, um Risiken wie Missbrauch durch Nutzer, unerwartetes Verhalten der KI oder Manipulation durch gefälschte Webinhalte zu minimieren. Zusätzlich bieten die Entwickler Sicherheitskontrollen, um potenziell gefährliche Aktionen zu blockieren – etwa das Umgehen von CAPTCHAs, die Beeinträchtigung der Systemintegrität oder den Zugriff auf medizinische Geräte. Weitere Empfehlungen zur sicheren Nutzung finden sich in der Dokumentation. Die Ankündigung erfolgt knapp einen Tag nach der Vorstellung neuer ChatGPT-Apps durch OpenAI im Rahmen seines Dev Day und unterstreicht die wachsende Konkurrenz im Bereich autonome KI-Agenten. Während OpenAI mit seinem ChatGPT Agent komplexe Aufgaben über mehrere Schritte hinweg erledigt, und Anthropic bereits letztes Jahr eine Version seines Claude-Modells mit „Computer Use“ veröffentlichte, positioniert Google mit Gemini 2.5 Computer Use eine spezialisierte, sicherheitsorientierte Lösung, die sich auf die Interaktion mit Benutzeroberflächen konzentriert. Die Fähigkeit, direkt mit grafischen Interfaces zu interagieren, ist ein entscheidender Schritt, um KI-Agenten für alltägliche digitale Aufgaben nutzbar zu machen – besonders dort, wo keine APIs oder direkten Schnittstellen existieren.