Décodage généralisé pour les pixels, les images et le langage

Nous présentons X-Decoder, un modèle de décodage généralisé capable de prédire de manière fluide des segments au niveau des pixels et des jetons linguistiques. X-Decoder prend en entrée deux types de requêtes : (i) des requêtes génériques non sémantiques, et (ii) des requêtes sémantiques induites à partir d’entrées textuelles, afin de décoder des sorties au niveau des pixels et au niveau des jetons dans un même espace sémantique. Grâce à cette conception innovante, X-Decoder constitue la première approche offrant une solution unifiée pour supporter tous les types de segmentation d’images ainsi qu’une grande variété de tâches vision-langage (VL). En outre, notre architecture permet des interactions fluides entre tâches à différentes granularités et apporte des bénéfices mutuels en apprenant un espace commun et riche de compréhension visuelle-sémantique au niveau des pixels, sans recourir à aucune étiquetage artificiel. Après pré-entraînement sur un ensemble mixte comprenant une quantité limitée de données de segmentation et des millions de paires image-texte, X-Decoder démontre une forte capacité de transfert sur une large gamme de tâches en aval, tant dans des scénarios zero-shot que dans des cas d’adaptation fine (fine-tuning). Notamment, il atteint des résultats de pointe sur la segmentation à vocabulaire ouvert et la segmentation par référence sur huit jeux de données ; une performance fine-tunée supérieure ou compétitive par rapport à d’autres modèles généralistes et spécialisés sur les tâches de segmentation et vision-langage ; ainsi qu’une grande flexibilité pour un fine-tuning efficace et la composition de nouvelles tâches (par exemple, génération de légendes par référence ou édition d’images). Le code, une démonstration, une vidéo et des visualisations sont disponibles à l’adresse suivante : https://x-decoder-vl.github.io.