Command Palette
Search for a command to run...
Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action
Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Résumé
Les modèles vision-langage-action (VLA) ont récemment fait preuve d’un fort potentiel pour permettre aux robots de suivre des instructions linguistiques et d’exécuter des actions précises. Toutefois, la plupart des VLA sont construits à partir de modèles vision-langage préentraînés exclusivement sur des données 2D, lesquels manquent d’une conscience spatiale précise et limitent ainsi leur capacité à opérer dans le monde physique 3D. Les solutions existantes tentent d’intégrer des entrées 3D explicites, telles que des cartes de profondeur ou des nuages de points, mais ces approches rencontrent des difficultés dues au bruit des capteurs, à l’hétérogénéité matérielle et à la couverture incomplète de la profondeur dans les jeux de données actuels. Les méthodes alternatives qui estiment des indices 3D à partir d’images 2D souffrent également de performances limitées des estimateurs de profondeur. Nous proposons Spatial Forcing (SF), une stratégie d’alignement simple mais efficace, qui force implicitement les modèles VLA à développer une compréhension spatiale sans dépendre d’entrées 3D explicites ni d’estimateurs de profondeur. SF aligne les embeddings visuels intermédiaires des VLA avec des représentations géométriques produites par des modèles fondamentaux 3D préentraînés. En imposant cet alignement au niveau des couches intermédiaires, SF guide les VLA à encoder des représentations spatiales plus riches, améliorant ainsi la précision des actions. Des expériences étendues menées dans des environnements simulés et dans le monde réel démontrent que SF atteint des résultats de pointe, dépassant à la fois les VLA basés sur des données 2D et ceux basés sur des données 3D. SF accélère également l’entraînement jusqu’à 3,8 fois et améliore l’efficacité des données sur une large gamme de tâches robotiques. La page du projet est disponible à l’adresse suivante : https://spatial-forcing.github.io/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.