Les Transformers figés dans les modèles linguistiques sont des couches d'encodeur visuel efficaces

Ce papier révèle que les grands modèles linguistiques (LLM), malgré leur entraînement exclusivement sur des données textuelles, se révèlent des encodeurs étonnamment puissants pour des tâches visuelles entièrement autonomes en l’absence de toute information linguistique. Plus fascinant encore, cette performance peut être obtenue grâce à une stratégie simple mais jusque-là négligée : utiliser un bloc transformer figé issu d’un LLM préentraîné comme couche d’encodeur fondamentale pour traiter directement des tokens visuels. Notre travail repousse les limites de l’utilisation des LLM dans les tâches de vision par ordinateur, s’éloignant significativement des pratiques conventionnelles qui exigent généralement une architecture multimodale vision-langage accompagnée de prompts, d’entrées ou de sorties linguistiques. Nous démontrons que notre approche améliore de manière cohérente les performances sur une large gamme de tâches, incluant des tâches de reconnaissance visuelle purement 2D et 3D (par exemple, classification d’images et de nuages de points), des tâches de modélisation temporelle (par exemple, reconnaissance d’actions), des tâches non sémantiques (par exemple, prévision du mouvement), ainsi que des tâches multimodales (par exemple, question-réponse visuelle 2D/3D et récupération d’images à partir de texte). Ces améliorations constituent un phénomène général, applicable à divers types de LLM (par exemple, LLaMA et OPT) et à différentes architectures de blocs transformer LLM. Nous proposons également l’hypothèse de filtrage d’information pour expliquer l’efficacité des blocs transformer préentraînés dans le codage visuel : ces blocs parviennent à identifier les tokens visuels informatifs et à renforcer davantage leur impact. Cette hypothèse est empiriquement soutenue par l’observation que l’activation des caractéristiques, après entraînement avec des blocs transformer LLM, présente une focalisation accrue sur les régions pertinentes. Nous espérons que ce travail inspirera de nouvelles perspectives sur l’utilisation des LLM et approfondira notre compréhension de leurs mécanismes fondamentaux. Le code est disponible à l’adresse suivante : https://github.com/ziqipang/LM4VisualEncoding.