HyperAIHyperAI

Command Palette

Search for a command to run...

TraceVLA : L'incitation visuelle améliore la conscience spatiale et temporelle pour les politiques robotiques généralistes

Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daumé III Andrey Kolobov Furong Huang Jianwei Yang

Résumé

Bien que les grands modèles de vision-langage-action (VLA) préentraînés sur des ensembles de données robotiques étendus offrent des politiques généralistes prometteuses pour l'apprentissage robotique, ils peinent encore à gérer les dynamiques spatio-temporelles dans la robotique interactive, ce qui les rend moins efficaces pour traiter des tâches complexes, comme la manipulation. Dans cette étude, nous introduisons le visual trace prompting, une approche simple mais efficace visant à améliorer la conscience spatio-temporelle des modèles VLA pour la prédiction d'actions en encodant les trajectoires état-action visuellement. Nous développons un nouveau modèle TraceVLA en affinant OpenVLA sur notre propre ensemble de données comprenant 150 000 trajectoires de manipulation robotique à l'aide du visual trace prompting. Les évaluations de TraceVLA effectuées sur 137 configurations dans SimplerEnv et 4 tâches sur un robot physique WidowX démontrent des performances de pointe, surpassant OpenVLA de 10 % dans SimplerEnv et par 3,5 fois dans les tâches avec robots réels, tout en montrant une généralisation robuste à travers diverses incarnations et scénarios. Pour valider davantage l'efficacité et la généralité de notre méthode, nous présentons un modèle VLA compact basé sur Phi-3-Vision (4B), préentraîné sur Open-X-Embodiment et affiné sur notre ensemble de données, qui rivalise avec la ligne de base OpenVLA (7B) tout en améliorant considérablement l'efficacité de l'inférence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp