TraceVLA : L'incitation visuelle améliore la conscience spatiale et temporelle pour les politiques robotiques généralistes

Bien que les grands modèles de vision-langage-action (VLA) préentraînés sur des ensembles de données robotiques étendus offrent des politiques généralistes prometteuses pour l'apprentissage robotique, ils peinent encore à gérer les dynamiques spatio-temporelles dans la robotique interactive, ce qui les rend moins efficaces pour traiter des tâches complexes, comme la manipulation. Dans cette étude, nous introduisons le visual trace prompting, une approche simple mais efficace visant à améliorer la conscience spatio-temporelle des modèles VLA pour la prédiction d'actions en encodant les trajectoires état-action visuellement. Nous développons un nouveau modèle TraceVLA en affinant OpenVLA sur notre propre ensemble de données comprenant 150 000 trajectoires de manipulation robotique à l'aide du visual trace prompting. Les évaluations de TraceVLA effectuées sur 137 configurations dans SimplerEnv et 4 tâches sur un robot physique WidowX démontrent des performances de pointe, surpassant OpenVLA de 10 % dans SimplerEnv et par 3,5 fois dans les tâches avec robots réels, tout en montrant une généralisation robuste à travers diverses incarnations et scénarios. Pour valider davantage l'efficacité et la généralité de notre méthode, nous présentons un modèle VLA compact basé sur Phi-3-Vision (4B), préentraîné sur Open-X-Embodiment et affiné sur notre ensemble de données, qui rivalise avec la ligne de base OpenVLA (7B) tout en améliorant considérablement l'efficacité de l'inférence.