HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action

Résumé

Les modèles vision-langage-action (VLA) ont récemment fait preuve d’un fort potentiel pour permettre aux robots de suivre des instructions linguistiques et d’exécuter des actions précises. Toutefois, la plupart des VLA sont construits à partir de modèles vision-langage préentraînés exclusivement sur des données 2D, lesquels manquent d’une conscience spatiale précise et limitent ainsi leur capacité à opérer dans le monde physique 3D. Les solutions existantes tentent d’intégrer des entrées 3D explicites, telles que des cartes de profondeur ou des nuages de points, mais ces approches rencontrent des difficultés dues au bruit des capteurs, à l’hétérogénéité matérielle et à la couverture incomplète de la profondeur dans les jeux de données actuels. Les méthodes alternatives qui estiment des indices 3D à partir d’images 2D souffrent également de performances limitées des estimateurs de profondeur. Nous proposons Spatial Forcing (SF), une stratégie d’alignement simple mais efficace, qui force implicitement les modèles VLA à développer une compréhension spatiale sans dépendre d’entrées 3D explicites ni d’estimateurs de profondeur. SF aligne les embeddings visuels intermédiaires des VLA avec des représentations géométriques produites par des modèles fondamentaux 3D préentraînés. En imposant cet alignement au niveau des couches intermédiaires, SF guide les VLA à encoder des représentations spatiales plus riches, améliorant ainsi la précision des actions. Des expériences étendues menées dans des environnements simulés et dans le monde réel démontrent que SF atteint des résultats de pointe, dépassant à la fois les VLA basés sur des données 2D et ceux basés sur des données 3D. SF accélère également l’entraînement jusqu’à 3,8 fois et améliore l’efficacité des données sur une large gamme de tâches robotiques. La page du projet est disponible à l’adresse suivante : https://spatial-forcing.github.io/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action | Articles de recherche | HyperAI