Command Palette
Search for a command to run...
Ne pas aveugler votre VLA : aligner les représentations visuelles pour une généralisation hors distribution
Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

Résumé
Le succès croissant des modèles Vision-Language-Action (VLA) s'explique par l'espoir que les modèles pré-entraînés Vision-Language (VLM) puissent doter les agents d'une connaissance du monde transférable et d'un ancrage vision-langage (VL), posant ainsi les fondations d'un modèle d'action capable d'une généralisation plus large. Pourtant, lorsqu'on adapte ces VLM à la modalité action, il reste incertain dans quelle mesure leurs représentations et leurs connaissances initiales VL sont préservées. Dans ce travail, nous menons une étude systématique de la conservation des représentations au cours de l'ajustage fin (fine-tuning) des VLA, en montrant que l'ajustage fin naïf de la modalité action entraîne une dégradation des représentations visuelles. Pour caractériser et mesurer ces effets, nous examinons les représentations cachées des VLA et analysons les cartes d'attention. En outre, nous proposons une série de tâches ciblées et de méthodes comparant les modèles VLA à leurs homologues VLM, permettant d'isoler les changements subis par les capacités VL en raison de l'ajustage fin action. Nous évaluons également diverses stratégies d'alignement des représentations visuelles, et introduisons une méthode simple mais efficace, qui atténue la dégradation et améliore la généralisation dans des scénarios hors distribution (OOD). Globalement, notre analyse met en lumière le compromis entre l'ajustage fin action et la dégradation des représentations VL, tout en soulignant des approches pratiques pour restaurer les capacités VL héritées. Le code est disponible publiquement : https://blind-vla-paper.github.io
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.