GR-MG : Exploiter les données partiellement annotées grâce à une politique conditionnée par le but multimodale

La communauté de la robotique s’est toujours efforcée d’atteindre une manipulation robotique généralisable à l’aide d’instructions naturelles flexibles. Un défi majeur réside dans le fait que la collecte de trajectoires robotiques entièrement annotées à la fois en actions et en textes est longue et exigeante en ressources humaines. En revanche, les données partiellement annotées — telles que des vidéos d’activités humaines sans étiquettes d’actions, ou des trajectoires robotiques sans étiquettes textuelles — sont beaucoup plus faciles à recueillir. Peut-on exploiter ces données pour améliorer la capacité de généralisation des robots ? Dans cet article, nous proposons GR-MG, une nouvelle méthode permettant de conditionner sur une instruction textuelle et une image-objectif. Lors de l’entraînement, GR-MG sélectionne aléatoirement des images-objectif à partir des trajectoires et conditionne sur le texte et l’image-objectif, ou uniquement sur l’image lorsque le texte n’est pas disponible. Lors de l’inférence, où seule l’instruction textuelle est fournie, GR-MG génère l’image-objectif à l’aide d’un modèle d’édition d’image basé sur une diffusion, puis conditionne sur le texte et l’image générée. Cette approche permet à GR-MG d’exploiter de grandes quantités de données partiellement annotées tout en conservant la flexibilité offerte par les instructions linguistiques pour spécifier des tâches. Pour générer des images-objectif précises, nous introduisons un nouveau modèle de génération d’image-objectif guidée par l’avancement, qui injecte des informations sur l’état d’avancement de la tâche dans le processus de génération. Dans des expériences en simulation, GR-MG améliore le nombre moyen de tâches réalisées consécutivement sur un ensemble de 5 de 3,35 à 4,04. Dans des expériences sur robot réel, GR-MG parvient à accomplir 58 tâches différentes et améliore le taux de réussite de 68,7 % à 78,1 % dans les scénarios simples, et de 44,4 % à 60,6 % dans les scénarios de généralisation. Il surpasse également les méthodes de référence dans l’apprentissage peu supervisé de nouvelles compétences. Des démonstrations vidéo, le code source et les points de contrôle sont disponibles sur la page du projet : https://gr-mg.github.io/.