Vers une manipulation visuo-linguistique robotique généralisable : un benchmark et une politique 3D guidée par les LLM

La généralisation des politiques robotiques conditionnées par le langage à de nouvelles tâches reste un défi majeur, entravée par l'absence de bancs d'essai de simulation appropriés. Dans cet article, nous comblons cette lacune en introduisant GemBench, un nouveau banc d'essai visant à évaluer les capacités de généralisation des politiques de manipulation robotique basées sur la vision et le langage. GemBench intègre sept primitives d'action générales et quatre niveaux de généralisation, couvrant des placements inédits, des objets rigides et articulés, ainsi que des tâches complexes à long terme. Nous évaluons les approches les plus avancées sur GemBench et introduisons également une nouvelle méthode. Notre approche 3D-LOTUS exploite des informations 3D riches pour prédire les actions conditionnées par le langage. Bien que 3D-LOTUS se distingue par son efficacité et ses performances sur les tâches connues, elle rencontre des difficultés avec les tâches inédites. Pour remédier à cela, nous présentons 3D-LOTUS++, un cadre qui combine les capacités de planification de mouvement de 3D-LOTUS avec les capacités de planification de tâches des grands modèles linguistiques (LLMs) et la précision du positionnement d'objets des modèles linguistiques visuels (VLMs). 3D-LOTUS++ atteint des performances de pointe sur les tâches inédites de GemBench, établissant un nouveau standard pour la généralisation dans la manipulation robotique. Le banc d'essai, les codes et les modèles entraînés sont disponibles à l'adresse suivante : https://www.di.ens.fr/willow/research/gembench/.