HyperAIHyperAI

Command Palette

Search for a command to run...

GiT : Vers un Vision Transformer généraliste grâce à une interface linguistique universelle

Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang

Résumé

Cet article propose un cadre simple mais efficace, appelé GiT, applicable simultanément à diverses tâches visuelles à l’aide uniquement d’un ViT classique. Inspirés par l’universalité de l’architecture Transformer à plusieurs couches (par exemple, GPT), largement utilisée dans les grands modèles linguistiques (LLM), nous cherchons à étendre son application afin qu’elle puisse servir de modèle fondamental visionnel puissant (VFM). Toutefois, contrairement au traitement du langage, les tâches visuelles exigent généralement des modules spécifiques — tels que des têtes de boîtes englobantes pour la détection ou des décodeurs de pixels pour la segmentation — ce qui limite fortement l’application des puissants transformateurs à plusieurs couches dans le domaine visuel. Pour résoudre ce problème, nous concevons une interface linguistique universelle qui permet une décodage auto-régressif réussi, permettant ainsi d’unifier habilement différentes tâches visuelles : de la compréhension d’image (par exemple, génération de légendes), en passant par la perception éparses (par exemple, détection), jusqu’à la prédiction dense (par exemple, segmentation). Grâce à cette conception, le modèle entier est composé uniquement d’un ViT, sans aucune extension spécifique, offrant ainsi une simplification architecturale remarquable. GiT est un modèle visuel multi-tâches, entraîné conjointement sur cinq benchmarks représentatifs sans ajustement spécifique à chaque tâche. De manière intéressante, notre modèle GiT établit une nouvelle référence en termes de performance généraliste et favorise une amélioration mutuelle entre les tâches, conduisant à des gains significatifs par rapport à un entraînement isolé. Ce phénomène rappelle l’effet observé dans les LLM. En enrichissant davantage l’entraînement avec 27 jeux de données, GiT obtient des résultats remarquables en mode zéro-shot sur diverses tâches. Grâce à sa conception simple, ce paradigme ouvre la voie à une réduction de l’écart architectural entre vision et langage. Le code et les modèles seront disponibles à l’adresse \url{https://github.com/Haiyang-W/GiT}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp