il y a 4 mois

Résumé

Les modèles vision-langage-action (VLA) ont récemment fait preuve d’un fort potentiel pour permettre aux robots de suivre des instructions linguistiques et d’exécuter des actions précises. Toutefois, la plupart des VLA sont construits à partir de modèles vision-langage préentraînés exclusivement sur des données 2D, lesquels manquent d’une conscience spatiale précise et limitent ainsi leur capacité à opérer dans le monde physique 3D. Les solutions existantes tentent d’intégrer des entrées 3D explicites, telles que des cartes de profondeur ou des nuages de points, mais ces approches rencontrent des difficultés dues au bruit des capteurs, à l’hétérogénéité matérielle et à la couverture incomplète de la profondeur dans les jeux de données actuels. Les méthodes alternatives qui estiment des indices 3D à partir d’images 2D souffrent également de performances limitées des estimateurs de profondeur. Nous proposons Spatial Forcing (SF), une stratégie d’alignement simple mais efficace, qui force implicitement les modèles VLA à développer une compréhension spatiale sans dépendre d’entrées 3D explicites ni d’estimateurs de profondeur. SF aligne les embeddings visuels intermédiaires des VLA avec des représentations géométriques produites par des modèles fondamentaux 3D préentraînés. En imposant cet alignement au niveau des couches intermédiaires, SF guide les VLA à encoder des représentations spatiales plus riches, améliorant ainsi la précision des actions. Des expériences étendues menées dans des environnements simulés et dans le monde réel démontrent que SF atteint des résultats de pointe, dépassant à la fois les VLA basés sur des données 2D et ceux basés sur des données 3D. SF accélère également l’entraînement jusqu’à 3,8 fois et améliore l’efficacité des données sur une large gamme de tâches robotiques. La page du projet est disponible à l’adresse suivante : https://spatial-forcing.github.io/

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Multimodal

Représentation Multimodale

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Multimodal

Représentation Multimodale

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Forçage spatial : alignement implicite de représentations spatiales pour un modèle vision-langage-action

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters