HyperAIHyperAI

Command Palette

Search for a command to run...

SpatialVLA : Exploration des Représentations Spatiales pour le Modèle Visuel-Langage-Action

Delin Qu; Haoming Song; Qizhi Chen; Yuanqi Yao; Xinyi Ye; Yan Ding; Zhigang Wang; JiaYuan Gu; Bin Zhao; Dong Wang; Xuelong Li

Résumé

Dans cet article, nous soutenons que la compréhension spatiale est un point clé dans la manipulation robotique, et nous proposons SpatialVLA pour explorer des représentations spatiales efficaces pour le modèle fondamental du robot. Plus précisément, nous introduisons le codage de position Ego3D pour intégrer des informations 3D dans les observations d'entrée du modèle visuel-langage-action, et nous proposons des grilles d'action adaptatives (Adaptive Action Grids) pour représenter les actions de mouvement spatial du robot avec des grilles d'action discrétisées adaptatives, facilitant ainsi l'apprentissage de connaissances d'action spatiale généralisables et transférables pour le contrôle inter-robots. SpatialVLA est d'abord pré-entraîné sur un modèle vision-langage à partir de 1,1 million d'épisodes réels de robots, afin d'apprendre une politique de manipulation généraliste dans plusieurs environnements et tâches robotiques. Après le pré-entraînement, SpatialVLA est directement appliqué pour effectuer de nombreuses tâches en mode zéro-shot. Les résultats supérieurs tant en simulation qu'avec des robots réels démontrent son avantage dans l'inférence de trajectoires complexes de mouvement robotique et sa forte capacité de généralisation multi-tâche en domaine. Nous montrons également que les grilles d'action adaptatives proposées offrent une nouvelle et efficace méthode pour affiner le modèle SpatialVLA pré-entraîné pour de nouvelles configurations en simulation et dans le monde réel, où les grilles d'action pré-apprises sont rediscrétisées pour capturer les mouvements spécifiques aux actions spatiales du nouveau setup. Les résultats supérieurs issus d'évaluations exhaustives démontrent une capacité exceptionnelle de généralisation en distribution et d'adaptation hors distribution, soulignant l'avantage crucial des représentations spatiales-aware proposées pour l'apprentissage de politiques générales robotiques. Tous les détails et codes seront open-source.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp