Command Palette
Search for a command to run...
VLA-Adapter : un paradigme efficace pour les modèles vision-langage-action à petite échelle

Résumé
Les modèles Vision-Language-Action (VLA) combinent généralement les espaces perceptifs et actionnels en pré-entraînant un grand modèle vision-langage (VLM) sur des données robotiques. Bien que cette approche améliore considérablement les performances, elle entraîne également des coûts d’entraînement importants. Dans cet article, nous étudions comment relier efficacement les représentations vision-langage (VL) à l’espace d’action (A). Nous introduisons VLA-Adapter, un nouveau paradigme conçu pour réduire la dépendance des modèles VLA vis-à-vis des grands VLM et de l’entraînement préalable étendu. À cette fin, nous analysons systématiquement l’efficacité de diverses conditions VL et présentons des résultats clés sur les conditions essentielles pour relier les espaces perception-action. À partir de ces observations, nous proposons un module de politique léger doté d’un mécanisme d’attention de pont, capable d’injecter automatiquement la condition optimale dans l’espace d’action. Grâce à cette approche, notre méthode atteint des performances élevées en n’utilisant qu’un modèle de base de 0,5 milliard de paramètres, sans nécessiter d’entraînement préalable sur des données robotiques. Des expériences étendues sur des benchmarks robotiques simulés et réels montrent que VLA-Adapter atteint des performances au niveau de l’état de l’art, tout en offrant la vitesse d’inférence la plus rapide jamais rapportée. En outre, grâce au paradigme avancé de pontage proposé, VLA-Adapter permet d’entraîner un modèle VLA puissant en seulement 8 heures sur une seule carte graphique grand public, réduisant ainsi considérablement les barrières à son déploiement. Page du projet : https://vla-adapter.github.io/.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.