Gemini Task Automation: Impressive, aber langsam
Google hat die Beta-Phase seiner neuen automatisierten Aufgabenfunktionen für den KI-Assistenten Gemini gestartet. Erstmals kann der Assistent auf Google-Pixel-Geräten des Modells Pixel 10 Pro sowie auf Samsung-Handys wie dem Galaxy S26 Ultra Apps eigenständig bedienen, um Aufgaben zu erledigen. Derzeit beschränkt sich die Unterstützung auf eine kleine Auswahl an Lieferdiensten und Mitfahrts-Diensten. Der Nutzerbericht von der ersten Nutzung zeigt ein zwiespältiges Bild: Die Funktionen sind derzeit noch langsam und stellenweise umständlich. Gemini benötigt in der Regel deutlich mehr Zeit als ein menschlicher Nutzer, um Aufgaben wie die Bestellung eines Fahrzeugs oder Essens abzuschließen. Ein Testlauf dauerte beispielsweise etwa neun Minuten. Zudem zeigt sich, dass die aktuelle Benutzeroberfläche von Anwendungen für Menschen gestaltet ist, nicht für KI. Gemini muss sich durch visuelle Elemente, Werbung und Fotos hindurcharbeiten, was zu unpräzisen Entscheidungen führen kann, solange es nicht über spezialisierte Schnittstellen verfügt. Trotz dieser Einschränkungen gilt die Technologie als bemerkenswert und als erster echter Einblick in die Zukunft mobiler Assistenten. Im Gegensatz zu früheren Sprachbefehlen kann Gemini komplexe, mehrstufige Aufgaben im Hintergrund erledigen, während der Nutzer andere Dinge tut oder das Gerät nicht betrachtet. Der Assistent gibt während der Ausführung Rückmeldung über den Fortschritt, etwa indem er anzeigt, dass er eine Menüoption auswählt oder Teile einer Bestellung zusammenfügt. Ein besonders beeindruckendes Szenario zeigte die Fähigkeit des Assistenten, Informationen aus verschiedenen Quellen zu integrieren. Nachdem der Nutzer einen Flugtermin im Kalender notierte, konnte Gemini auf Basis dieser Daten sowie von E-Mail-Informationen eine passende Zeit für eine Fahrt zum Flughafen vorschlagen und den RUF selbstständig anlegen, sobald die Zeit bestätigt wurde. Das System erkennt kontextbezogene Bedürfnisse, ist jedoch auf die Bestätigung des Nutzers beim finalen Schritt angewiesen, um Fehler zu vermeiden. Die aktuelle Technologie gilt als Übergangslösung. Experten und Entwickler arbeiten an Protokollen wie dem Model Context Protocol (MCP) oder Android-spezifischen App-Funktionen, die es KI-Modellen ermöglichen sollen, strukturierte Datenbanken statt visueller Oberflächen zu nutzen. Bis diese Standards flächendeckend eingeführt sind, muss sich die KI mit der menschlichen Benutzeroberfläche herumschlagen, was die Zuverlässigkeit begrenzt. Fehler treten meist kurz nach Start auf, etwa wenn Standortrechte fehlen oder die Lieferadresse angepasst werden muss. Zusammenfassend stellt die aktuelle Gemini-Automatisierung einen signifikanten ersten Schritt dar. Sie demonstriert das Potenzial, Aufgaben vollständig autonom zu lösen, ist in der Praxis aber noch von menschlicher Überwachung abhängig. Die Technologie ist noch nicht fehlerfrei und langsam, bietet jedoch einen wichtigen Vorablook darauf, wie die Interaktion mit mobilen Geräten in naher Zukunft aussehen könnte, sobald Apps für KI-Steuerung optimiert sind.
