RoboUniView : Modèle visuel-langage à représentation de vue unifiée pour la manipulation robotique

L’utilisation des modèles vision-langage (VLM) pour la manipulation robotique représente un paradigme novateur, visant à améliorer la capacité du modèle à généraliser à de nouveaux objets et instructions. Toutefois, en raison des variations dans les spécifications des caméras et leurs positions d’installation, les méthodes existantes présentent des écarts significatifs de performance entre différentes plates-formes robotiques. Pour relever ce défi, nous proposons dans cet article RoboUniView, une approche innovante qui découple l’extraction des caractéristiques visuelles de l’apprentissage des actions. Nous apprenons d’abord une représentation visuelle unifiée à partir de vues multi-perspectives en pré-entraînant sur des données facilement accessibles, puis dérivons les actions à partir de cette représentation unifiée pour contrôler la manipulation robotique. Cette représentation unifiée reflète plus fidèlement le monde physique et n’est pas contrainte par les paramètres de la caméra de la plate-forme robotique. Grâce à cette méthodologie, nous atteignons des performances de pointe sur le défi exigeant du benchmark CALVIN, en augmentant le taux de réussite dans le cadre $D \to D$ de 93,0 % à 96,2 %, et dans le cadre $ABC \to D$ de 92,2 % à 94,2 %. De plus, notre modèle démontre une adaptabilité et une flexibilité exceptionnelles : il maintient des performances élevées sous des paramètres de caméra inédits, peut intégrer plusieurs jeux de données avec des paramètres de caméra variés, et est capable d’apprentissage croisé de tâches sur plusieurs jeux de données. Le code source est fourni pour permettre la réimplémentation. https://github.com/liufanfanlff/RoboUniview