L'équipe du laboratoire Noah Ark de Huawei et d'autres proposent un nouveau cadre intégrant le système d'exploitation robotique aux grands modèles pour réaliser la commande par langage naturel.
Des chercheurs du laboratoire Noah's Ark de Huawei, de l'Université technique de Darmstadt et de l'École polytechnique fédérale de Zurich (ETH Zurich) ont présenté une nouvelle approche pour améliorer les capacités autonomes des robots. Publiée dans la revue Nature Machine Intelligence, leur étude propose un cadre intégrant les grands modèles de langage (LLM) avec le Robot Operating System (ROS), le logiciel de contrôle robotique le plus répandu. Cette combinaison vise à résoudre le défi majeur de la conversion précise des instructions verbales humaines en actions physiques fiables. L'équipe, dirigée par Christopher E. Mower, a conçu un agent capable de traduire des requêtes en langage naturel, telles que « ramassez le bloc vert et posez-le sur l'étagère noire », en une séquence d'exécutions robotiques. Le processus repose sur la capacité du LLM à décomposer ces tâches complexes en étapes élémentaires. Le framework résultant offre deux modes d'exécution flexibles : l'utilisation de code intégré, où le modèle génère directement des instructions logicielles, ou l'emploi d'arbres de comportement, qui organisent les actions sous forme de décisions structurées permettant de gérer les échecs et les alternatives. De plus, le système apprend de nouvelles compétences par imitation et les affine continuellement grâce à l'optimisation automatisée et aux retours de l'environnement ou des utilisateurs. Les expérimentations menées ont validé la robustesse, l'évolutivité et la polyvalence de cette architecture sur divers types de robots. Les résultats montrent que le système parvient à exécuter des tâches à long terme, des réarrangements d'objets sur table, une optimisation dynamique des tâches et même un contrôle à distance. Une caractéristique essentielle de cette étude est que tous les résultats ont été obtenus en utilisant des modèles de langage pré-entraînés et entièrement gratuits, garantissant l'accessibilité de la technologie. Le code complet a été rendu disponible en accès libre pour stimuler la communauté de la recherche et du développement. Cette avancée marque une étape significative vers une intelligence incarnée véritablement versatile, permettant aux robots de s'adapter naturellement aux environnements réels comme les espaces publics, les domiciles et les bureaux. En reliant directement la compréhension linguistique des LLM au contrôle matériel du ROS, les chercheurs ouvrent la voie à une interaction homme-robot plus fluide et intuitive. Bien que les performances actuelles soient prometteuses, l'équipe prévoit d'étendre les tests à une gamme plus large de robots et de scénarios complexes dans des environnements dynamiques. Cette solution pourrait inspirer le développement de futures interfaces similaires, consolidant l'avenir de la robotique autonome dans la société.
