HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

Ne pas aveugler votre VLA : aligner les représentations visuelles pour une généralisation hors distribution

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

Ne pas aveugler votre VLA : aligner les représentations visuelles pour une généralisation hors distribution

Résumé

Le succès croissant des modèles Vision-Language-Action (VLA) s'explique par l'espoir que les modèles pré-entraînés Vision-Language (VLM) puissent doter les agents d'une connaissance du monde transférable et d'un ancrage vision-langage (VL), posant ainsi les fondations d'un modèle d'action capable d'une généralisation plus large. Pourtant, lorsqu'on adapte ces VLM à la modalité action, il reste incertain dans quelle mesure leurs représentations et leurs connaissances initiales VL sont préservées. Dans ce travail, nous menons une étude systématique de la conservation des représentations au cours de l'ajustage fin (fine-tuning) des VLA, en montrant que l'ajustage fin naïf de la modalité action entraîne une dégradation des représentations visuelles. Pour caractériser et mesurer ces effets, nous examinons les représentations cachées des VLA et analysons les cartes d'attention. En outre, nous proposons une série de tâches ciblées et de méthodes comparant les modèles VLA à leurs homologues VLM, permettant d'isoler les changements subis par les capacités VL en raison de l'ajustage fin action. Nous évaluons également diverses stratégies d'alignement des représentations visuelles, et introduisons une méthode simple mais efficace, qui atténue la dégradation et améliore la généralisation dans des scénarios hors distribution (OOD). Globalement, notre analyse met en lumière le compromis entre l'ajustage fin action et la dégradation des représentations VL, tout en soulignant des approches pratiques pour restaurer les capacités VL héritées. Le code est disponible publiquement : https://blind-vla-paper.github.io

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ne pas aveugler votre VLA : aligner les représentations visuelles pour une généralisation hors distribution | Articles de recherche | HyperAI