HyperAIHyperAI

Command Palette

Search for a command to run...

Gemini Robotics 1.5 : des robots capables de penser, planifier et agir dans le monde réel

Gemini Robotics 1.5 marque une avancée majeure vers l’intégration de l’intelligence artificielle dans le monde physique, en dotant les robots de capacités agiles, réfléchies et généralisables. Cette nouvelle génération de modèles, fondée sur le noyau de la famille Gemini, introduit deux composants clés : Gemini Robotics-ER 1.5, modèle de raisonnement incarné, et Gemini Robotics 1.5, modèle vision-langage-action. Ensemble, ils forment un cadre agentique qui permet aux robots de percevoir, planifier, raisonner, utiliser des outils et exécuter des tâches complexes en plusieurs étapes dans des environnements réels. Gemini Robotics-ER 1.5 agit comme un « cerveau » de haut niveau, capable de planification logique, d’estimation de progression et de prise de décision contextuelle. Il intègre une compréhension spatiale de pointe, interagit en langage naturel, évalue le succès des actions et peut appeler des outils comme Google Search pour obtenir des informations pertinentes (par exemple, les règles locales de tri des déchets). Il décompose ensuite les tâches complexes en étapes simples, transmettant des instructions claires à Gemini Robotics 1.5, qui les exécute grâce à une vision avancée, une compréhension linguistique fine et une capacité à expliquer ses raisonnements — rendant les décisions plus transparentes. Ces modèles, formés à partir de la base Gemini et affinés sur des jeux de données spécialisés, surpassent les solutions existantes sur 15 benchmarks académiques d’inférence incarnée, notamment Point-Bench, Where2Place et ASIMOV. Ils démontrent une capacité exceptionnelle à généraliser à de nouveaux environnements et à des tâches inédites, même lorsqu’elles n’ont pas été explicitement vues pendant l’entraînement. Une innovation clé réside dans la transférabilité entre embodiments : Gemini Robotics 1.5 peut appliquer des comportements appris sur un robot (comme ALOHA 2) à d’autres types de robots (Apollo d’Apptronik ou Franka), sans recalibrage spécifique. Cela accélère considérablement l’apprentissage et ouvre la voie à des robots plus flexibles et évolutifs. En parallèle, Google insiste sur une développement responsable. Le modèle intègre des mécanismes de sécurité hautement intégrés : raisonnement sémantique préalable aux actions, dialogue respectueux conforme aux politiques de sécurité de Gemini, et déclenchement automatique de sous-systèmes de sécurité embarqués (ex. évitement de collision). Un nouvel ensemble de benchmarks, ASIMOV, a été mis à jour pour évaluer la sécurité sémantique, avec de nouvelles modalités vidéo, des annotations améliorées et des questions plus pertinentes. Gemini Robotics-ER 1.5 obtient des performances exceptionnelles sur ces évaluations, témoignant d’une meilleure compréhension des contraintes physiques et éthiques. Ces avancées constituent une étape fondamentale vers l’AGI physique — non plus des systèmes réactifs, mais des agents autonomes capables de penser, planifier et agir de manière générale dans le monde réel. Disponible depuis aujourd’hui via Google AI Studio pour les développeurs (Gemini Robotics-ER 1.5), et en accès limité aux partenaires pour Gemini Robotics 1.5, cette technologie ouvre la voie à une nouvelle génération de robots utiles, intelligents et intégrés dans la vie quotidienne. Des experts du secteur soulignent que cette évolution représente une rupture dans la robotique : « Pour la première fois, un modèle peut raisonner comme un humain dans un environnement physique, en s’appuyant sur des connaissances externes et en adaptant ses actions en temps réel. » Des entreprises comme Apptronik, qui collaborent activement, voient dans ces modèles un levier majeur pour accélérer le déploiement de robots humanoides dans des contextes industriels, domestiques ou de service.

Liens associés