HyperAIHyperAI
il y a 8 jours

GiT : Vers un Vision Transformer généraliste grâce à une interface linguistique universelle

Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
GiT : Vers un Vision Transformer généraliste grâce à une interface linguistique universelle
Résumé

Cet article propose un cadre simple mais efficace, appelé GiT, applicable simultanément à diverses tâches visuelles à l’aide uniquement d’un ViT classique. Inspirés par l’universalité de l’architecture Transformer à plusieurs couches (par exemple, GPT), largement utilisée dans les grands modèles linguistiques (LLM), nous cherchons à étendre son application afin qu’elle puisse servir de modèle fondamental visionnel puissant (VFM). Toutefois, contrairement au traitement du langage, les tâches visuelles exigent généralement des modules spécifiques — tels que des têtes de boîtes englobantes pour la détection ou des décodeurs de pixels pour la segmentation — ce qui limite fortement l’application des puissants transformateurs à plusieurs couches dans le domaine visuel. Pour résoudre ce problème, nous concevons une interface linguistique universelle qui permet une décodage auto-régressif réussi, permettant ainsi d’unifier habilement différentes tâches visuelles : de la compréhension d’image (par exemple, génération de légendes), en passant par la perception éparses (par exemple, détection), jusqu’à la prédiction dense (par exemple, segmentation). Grâce à cette conception, le modèle entier est composé uniquement d’un ViT, sans aucune extension spécifique, offrant ainsi une simplification architecturale remarquable. GiT est un modèle visuel multi-tâches, entraîné conjointement sur cinq benchmarks représentatifs sans ajustement spécifique à chaque tâche. De manière intéressante, notre modèle GiT établit une nouvelle référence en termes de performance généraliste et favorise une amélioration mutuelle entre les tâches, conduisant à des gains significatifs par rapport à un entraînement isolé. Ce phénomène rappelle l’effet observé dans les LLM. En enrichissant davantage l’entraînement avec 27 jeux de données, GiT obtient des résultats remarquables en mode zéro-shot sur diverses tâches. Grâce à sa conception simple, ce paradigme ouvre la voie à une réduction de l’écart architectural entre vision et langage. Le code et les modèles seront disponibles à l’adresse \url{https://github.com/Haiyang-W/GiT}.

GiT : Vers un Vision Transformer généraliste grâce à une interface linguistique universelle | Articles de recherche récents | HyperAI