il y a 7 jours

Décodage généralisé pour les pixels, les images et le langage

Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao

Voir les détails de l'article

Décodage généralisé pour les pixels, les images et le langage

Résumé

Nous présentons X-Decoder, un modèle de décodage généralisé capable de prédire de manière fluide des segments au niveau des pixels et des jetons linguistiques. X-Decoder prend en entrée deux types de requêtes : (i) des requêtes génériques non sémantiques, et (ii) des requêtes sémantiques induites à partir d’entrées textuelles, afin de décoder des sorties au niveau des pixels et au niveau des jetons dans un même espace sémantique. Grâce à cette conception innovante, X-Decoder constitue la première approche offrant une solution unifiée pour supporter tous les types de segmentation d’images ainsi qu’une grande variété de tâches vision-langage (VL). En outre, notre architecture permet des interactions fluides entre tâches à différentes granularités et apporte des bénéfices mutuels en apprenant un espace commun et riche de compréhension visuelle-sémantique au niveau des pixels, sans recourir à aucune étiquetage artificiel. Après pré-entraînement sur un ensemble mixte comprenant une quantité limitée de données de segmentation et des millions de paires image-texte, X-Decoder démontre une forte capacité de transfert sur une large gamme de tâches en aval, tant dans des scénarios zero-shot que dans des cas d’adaptation fine (fine-tuning). Notamment, il atteint des résultats de pointe sur la segmentation à vocabulaire ouvert et la segmentation par référence sur huit jeux de données ; une performance fine-tunée supérieure ou compétitive par rapport à d’autres modèles généralistes et spécialisés sur les tâches de segmentation et vision-langage ; ainsi qu’une grande flexibilité pour un fine-tuning efficace et la composition de nouvelles tâches (par exemple, génération de légendes par référence ou édition d’images). Le code, une démonstration, une vidéo et des visualisations sont disponibles à l’adresse suivante : https://x-decoder-vl.github.io.