HyperAIHyperAI

Command Palette

Search for a command to run...

Les Transformers figés dans les modèles linguistiques sont des couches d'encodeur visuel efficaces

Ziqi Pang Ziyang Xie Yunze Man Yu-Xiong Wang

Résumé

Ce papier révèle que les grands modèles linguistiques (LLM), malgré leur entraînement exclusivement sur des données textuelles, se révèlent des encodeurs étonnamment puissants pour des tâches visuelles entièrement autonomes en l’absence de toute information linguistique. Plus fascinant encore, cette performance peut être obtenue grâce à une stratégie simple mais jusque-là négligée : utiliser un bloc transformer figé issu d’un LLM préentraîné comme couche d’encodeur fondamentale pour traiter directement des tokens visuels. Notre travail repousse les limites de l’utilisation des LLM dans les tâches de vision par ordinateur, s’éloignant significativement des pratiques conventionnelles qui exigent généralement une architecture multimodale vision-langage accompagnée de prompts, d’entrées ou de sorties linguistiques. Nous démontrons que notre approche améliore de manière cohérente les performances sur une large gamme de tâches, incluant des tâches de reconnaissance visuelle purement 2D et 3D (par exemple, classification d’images et de nuages de points), des tâches de modélisation temporelle (par exemple, reconnaissance d’actions), des tâches non sémantiques (par exemple, prévision du mouvement), ainsi que des tâches multimodales (par exemple, question-réponse visuelle 2D/3D et récupération d’images à partir de texte). Ces améliorations constituent un phénomène général, applicable à divers types de LLM (par exemple, LLaMA et OPT) et à différentes architectures de blocs transformer LLM. Nous proposons également l’hypothèse de filtrage d’information pour expliquer l’efficacité des blocs transformer préentraînés dans le codage visuel : ces blocs parviennent à identifier les tokens visuels informatifs et à renforcer davantage leur impact. Cette hypothèse est empiriquement soutenue par l’observation que l’activation des caractéristiques, après entraînement avec des blocs transformer LLM, présente une focalisation accrue sur les régions pertinentes. Nous espérons que ce travail inspirera de nouvelles perspectives sur l’utilisation des LLM et approfondira notre compréhension de leurs mécanismes fondamentaux. Le code est disponible à l’adresse suivante : https://github.com/ziqipang/LM4VisualEncoding.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp