SpatialVLA : Exploration des Représentations Spatiales pour le Modèle Visuel-Langage-Action

Dans cet article, nous soutenons que la compréhension spatiale est un point clé dans la manipulation robotique, et nous proposons SpatialVLA pour explorer des représentations spatiales efficaces pour le modèle fondamental du robot. Plus précisément, nous introduisons le codage de position Ego3D pour intégrer des informations 3D dans les observations d'entrée du modèle visuel-langage-action, et nous proposons des grilles d'action adaptatives (Adaptive Action Grids) pour représenter les actions de mouvement spatial du robot avec des grilles d'action discrétisées adaptatives, facilitant ainsi l'apprentissage de connaissances d'action spatiale généralisables et transférables pour le contrôle inter-robots. SpatialVLA est d'abord pré-entraîné sur un modèle vision-langage à partir de 1,1 million d'épisodes réels de robots, afin d'apprendre une politique de manipulation généraliste dans plusieurs environnements et tâches robotiques. Après le pré-entraînement, SpatialVLA est directement appliqué pour effectuer de nombreuses tâches en mode zéro-shot. Les résultats supérieurs tant en simulation qu'avec des robots réels démontrent son avantage dans l'inférence de trajectoires complexes de mouvement robotique et sa forte capacité de généralisation multi-tâche en domaine. Nous montrons également que les grilles d'action adaptatives proposées offrent une nouvelle et efficace méthode pour affiner le modèle SpatialVLA pré-entraîné pour de nouvelles configurations en simulation et dans le monde réel, où les grilles d'action pré-apprises sont rediscrétisées pour capturer les mouvements spécifiques aux actions spatiales du nouveau setup. Les résultats supérieurs issus d'évaluations exhaustives démontrent une capacité exceptionnelle de généralisation en distribution et d'adaptation hors distribution, soulignant l'avantage crucial des représentations spatiales-aware proposées pour l'apprentissage de politiques générales robotiques. Tous les détails et codes seront open-source.