Gemini Robotics 1.5: Intelligente Roboter mit agentenfähigem Denken
Google hat mit Gemini Robotics 1.5 einen bedeutenden Schritt hin zu intelligenten physischen Agenten unternommen, die komplexe, mehrstufige Aufgaben in der realen Welt selbstständig bewältigen können. Die neue Modellgeneration besteht aus zwei spezialisierten Komponenten: dem embodied reasoning Modell Gemini Robotics-ER 1.5 und dem vision-language-action Modell Gemini Robotics 1.5, die gemeinsam in einem agentenbasierten Framework arbeiten. Während das ER-Modell als hochentwickeltes „Hirn“ fungiert – mit Fähigkeiten in räumlichem Verständnis, Planung, logischem Denken und der Fähigkeit, externe Werkzeuge wie Google Search zu nutzen – führt das zweite Modell die konkreten Aktionen aus, basierend auf visuellen und sprachlichen Eingaben. Beide Modelle sind auf der Gemini-Grundlage aufgebaut und durch spezifische Datensätze optimiert. Gemeinsam ermöglichen sie eine signifikante Verbesserung der Generalisierungsfähigkeit bei langen und komplexen Aufgaben, wie etwa das Sortieren von Abfällen nach lokalen Richtlinien, was mehrere Schritte einschließt: Informationsbeschaffung, Objekterkennung, Entscheidungsfindung und physische Durchführung. Ein zentrales Fortschritt ist die Lernfähigkeit über verschiedene Roboter-Embodiments hinweg. Gemini Robotics 1.5 kann Bewegungsabläufe von einem Roboter (z. B. ALOHA 2) auf andere Roboter mit unterschiedlicher Architektur – wie den humanoiden Apollo von Apptronik oder den biarmigen Franka-Roboter – übertragen, ohne dass jedes Modell neu spezialisiert werden muss. Dies beschleunigt die Entwicklung und Anpassung von Robotern erheblich. Die Leistung wurde in 15 akademischen Benchmarks wie Point-Bench, Where2Place oder ASIMOV evaluiert und zeigt herausragende Ergebnisse, insbesondere in der semantischen und physischen Sicherheit. Sicherheit und verantwortungsvolle Entwicklung spielen eine zentrale Rolle. Die Modelle integrieren eine mehrschichtige Sicherheitsarchitektur: Sie überlegen vor jeder Aktion potenzielle Risiken, kommunizieren respektvoll mit Menschen und aktivieren auf dem Roboter eingebaute Sicherheitssysteme wie Kollisionsvermeidung. Zusätzlich wurde der ASIMOV-Benchmark erweitert, um semantische Sicherheit besser zu bewerten – mit verbesserten Annotationen, neuen Frageformen und Video-Modaliäten. Gemini Robotics-ER 1.5 erreicht hier Spitzenwerte, was auf ein tieferes Verständnis von Sicherheitskontexten hindeutet. Industrieexperten sehen in dieser Entwicklung einen Meilenstein auf dem Weg zur Allgemeinen Künstlichen Intelligenz (AGI) im physischen Raum. Die Fähigkeit, zu planen, zu denken, Werkzeuge zu nutzen und sich in neuen Umgebungen anzupassen, markiert einen Übergang von reaktiven Systemen zu proaktiven, autonomen Agenten. Unternehmen wie Apptronik, die bereits enge Zusammenarbeit mit Google pflegen, könnten damit neue Anwendungen in Logistik, Haushalt oder Industrie beschleunigen. Die Verfügbarkeit über die Gemini API in Google AI Studio eröffnet Entwicklern Zugang, um kreative, alltagstaugliche Roboterlösungen zu bauen – ein klares Signal für die Zukunft der mensch-zentrierten Robotik.
