Google Gemini Robotics-ER 1.6 für bessere Robotik
Robotern, um wirklich nützlich im Alltag und in der Industrie zu sein, reicht es nicht mehr aus, einfache Anweisungen zu befolgen. Sie müssen in der Lage sein, über die physische Welt zu reflektieren und Schlussfolgerungen zu ziehen. Genau diese Fähigkeit des so genannten körperlichen Denkens oder Embodied Reasoning ermöglicht es Robotern, eine komplexe Anlage zu durchqueren oder präzise Ablesungen an Manometern durchzuführen. Um diese Lücke zwischen digitaler Intelligenz und physischer Handlung zu schließen, hat Google heute Gemini Robotics-ER 1.6 vorgestellt. Dieses Update stellt ein bedeutendes Upgrade des modellbasierten Ansatzes dar, der das Verständnis von Robotern für ihre Umgebung mit beispielloser Präzision verbessert. Durch die Stärkung der räumlichen Vorstellungskraft und des Verständnisses aus mehreren Perspektiven wird eine neue Stufe der Autonomie für zukünftige physische Agenten erreicht. Das Modell spezialisiert sich auf für die Robotik entscheidende Denkfähigkeiten, darunter visuelles und räumliches Verständnis, Aufgabenplanung und die Erkennung des Erfolgs einer Aufgabe. Es fungiert als übergeordnetes Denkmodell, das Aufgaben durch das native Aufrufen von Tools wie Google Search, Vision-Language-Action-Modellen oder benutzerdefinierten Drittanbieterfunktionen ausführen kann. Gemini Robotics-ER 1.6 zeigt gegenüber früheren Versionen wie Gemini Robotics-ER 1.5 und Gemini 3.0 Flash deutliche Verbesserungen. Besonders hervorgehoben werden Fortschritte in der räumlichen und physischen Denkweise, einschließlich Zeigen, Zählen und Erfolgserkennung. Eine neue Schlüsselfunktion ist das Ablesen von Instrumenten. Diese Fähigkeit ermöglicht es Robotern, komplexe Messinstrumente und Sichtgläser zu interpretieren. Ein konkretes Anwendungsbeispiel wurde in enger Zusammenarbeit mit dem Partner Boston Dynamics entwickelt und identifiziert. Ab heute steht Gemini Robotics-ER 1.6 Entwicklern über die Gemini API und Google AI Studio zur Verfügung. Um den Einstieg zu erleichtern, veröffentlicht Google ein Entwickler-Colab-Beispiel. Dieses Dokument enthält konkrete Anleitungsinhalte, wie das Modell konfiguriert wird und wie es für Aufgaben im Bereich des körperlichen Denkens angewendet werden kann. Das Ziel ist es, Entwicklern Werkzeuge an die Hand zu geben, die es Robotern ermöglichen, sich sicher und intelligent in dynamischen Umgebungen zu bewegen und komplexe Probleme eigenständig zu lösen. Die Integration dieser fortschrittlichen Denkfähigkeiten markiert einen wesentlichen Schritt in der Entwicklung autonomer Systeme, die nicht nur reagieren, sondern aktiv Situationen analysieren und angemessen handeln.
