Command Palette
Search for a command to run...
Segmentation Panoptique à Vocabulaire Ouvert avec des Modèles de Diffusion Texte-Image
Segmentation Panoptique à Vocabulaire Ouvert avec des Modèles de Diffusion Texte-Image
Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2
Résumé
Nous présentons ODISE : Open-vocabulary DIffusion-based panoptic SEgmentation, qui unifie les modèles de diffusion pré-entraînés texte-image et les modèles discriminants pour effectuer une segmentation panoramique à vocabulaire ouvert. Les modèles de diffusion texte-image possèdent la remarquable capacité de générer des images de haute qualité avec des descriptions linguistiques diverses et à vocabulaire ouvert. Cela démontre que leur espace de représentation interne est fortement corrélé aux concepts ouverts du monde réel. Les modèles discriminants texte-image comme CLIP, en revanche, sont efficaces pour classifier les images en étiquettes à vocabulaire ouvert. Nous exploitons les représentations internes figées de ces deux types de modèles pour effectuer la segmentation panoramique de toute catégorie dans la nature. Notre approche surpasse l'état de l'art précédent avec des marges significatives tant dans les tâches de segmentation panoramique à vocabulaire ouvert que dans celles de segmentation sémantique. En particulier, avec une formation uniquement sur COCO, notre méthode atteint 23,4 PQ (Panoptic Quality) et 30,0 mIoU (mean Intersection over Union) sur le jeu de données ADE20K, avec une amélioration absolue de 8,3 PQ et 7,9 mIoU par rapport à l'état de l'art précédent. Nous mettons notre code et nos modèles en open source sur https://github.com/NVlabs/ODISE .