Command Palette
Search for a command to run...
GiT : Vers un Vision Transformer généraliste grâce à une interface linguistique universelle
GiT : Vers un Vision Transformer généraliste grâce à une interface linguistique universelle
Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang
Résumé
Cet article propose un cadre simple mais efficace, appelé GiT, applicable simultanément à diverses tâches visuelles à l’aide uniquement d’un ViT classique. Inspirés par l’universalité de l’architecture Transformer à plusieurs couches (par exemple, GPT), largement utilisée dans les grands modèles linguistiques (LLM), nous cherchons à étendre son application afin qu’elle puisse servir de modèle fondamental visionnel puissant (VFM). Toutefois, contrairement au traitement du langage, les tâches visuelles exigent généralement des modules spécifiques — tels que des têtes de boîtes englobantes pour la détection ou des décodeurs de pixels pour la segmentation — ce qui limite fortement l’application des puissants transformateurs à plusieurs couches dans le domaine visuel. Pour résoudre ce problème, nous concevons une interface linguistique universelle qui permet une décodage auto-régressif réussi, permettant ainsi d’unifier habilement différentes tâches visuelles : de la compréhension d’image (par exemple, génération de légendes), en passant par la perception éparses (par exemple, détection), jusqu’à la prédiction dense (par exemple, segmentation). Grâce à cette conception, le modèle entier est composé uniquement d’un ViT, sans aucune extension spécifique, offrant ainsi une simplification architecturale remarquable. GiT est un modèle visuel multi-tâches, entraîné conjointement sur cinq benchmarks représentatifs sans ajustement spécifique à chaque tâche. De manière intéressante, notre modèle GiT établit une nouvelle référence en termes de performance généraliste et favorise une amélioration mutuelle entre les tâches, conduisant à des gains significatifs par rapport à un entraînement isolé. Ce phénomène rappelle l’effet observé dans les LLM. En enrichissant davantage l’entraînement avec 27 jeux de données, GiT obtient des résultats remarquables en mode zéro-shot sur diverses tâches. Grâce à sa conception simple, ce paradigme ouvre la voie à une réduction de l’écart architectural entre vision et langage. Le code et les modèles seront disponibles à l’adresse \url{https://github.com/Haiyang-W/GiT}.