Segmentation Panoptique à Vocabulaire Ouvert avec des Modèles de Diffusion Texte-Image

Nous présentons ODISE : Open-vocabulary DIffusion-based panoptic SEgmentation, qui unifie les modèles de diffusion pré-entraînés texte-image et les modèles discriminants pour effectuer une segmentation panoramique à vocabulaire ouvert. Les modèles de diffusion texte-image possèdent la remarquable capacité de générer des images de haute qualité avec des descriptions linguistiques diverses et à vocabulaire ouvert. Cela démontre que leur espace de représentation interne est fortement corrélé aux concepts ouverts du monde réel. Les modèles discriminants texte-image comme CLIP, en revanche, sont efficaces pour classifier les images en étiquettes à vocabulaire ouvert. Nous exploitons les représentations internes figées de ces deux types de modèles pour effectuer la segmentation panoramique de toute catégorie dans la nature. Notre approche surpasse l'état de l'art précédent avec des marges significatives tant dans les tâches de segmentation panoramique à vocabulaire ouvert que dans celles de segmentation sémantique. En particulier, avec une formation uniquement sur COCO, notre méthode atteint 23,4 PQ (Panoptic Quality) et 30,0 mIoU (mean Intersection over Union) sur le jeu de données ADE20K, avec une amélioration absolue de 8,3 PQ et 7,9 mIoU par rapport à l'état de l'art précédent. Nous mettons notre code et nos modèles en open source sur https://github.com/NVlabs/ODISE .