Extraire des Étiquettes Libres et Denses de CLIP

Le modèle de pré-entraînement Contrastive Language-Image (CLIP) a réalisé une percée remarquable dans la reconnaissance d'images à zéro coup d'essai avec vocabulaire ouvert. De nombreuses études récentes exploitent les modèles de CLIP pré-entraînés pour la classification et la manipulation au niveau des images. Dans cet article, nous souhaitons examiner le potentiel intrinsèque de CLIP pour la prédiction dense au niveau des pixels, en particulier dans le domaine de la segmentation sémantique. À cette fin, avec des modifications minimales, nous montrons que MaskCLIP produit des résultats de segmentation convaincants sur des concepts ouverts à travers divers jeux de données, sans annotations ni ajustement fin. En ajoutant l'étiquetage pseudo et l'auto-entraînement, MaskCLIP+ dépasse largement les méthodes transductives actuelles pour la segmentation sémantique à zéro coup d'essai, par exemple, les mIoU (mean Intersection over Union) des classes inconnues sur PASCAL VOC/PASCAL Context/COCO Stuff sont améliorés de 35,6/20,7/30,3 à 86,1/66,7/54,7. Nous testons également la robustesse de MaskCLIP face à la corruption des entrées et évaluons sa capacité à distinguer des objets à grains fins et des concepts nouveaux. Nos résultats indiquent que MaskCLIP peut servir de nouvelle source fiable de supervision pour les tâches de prédiction dense afin d'atteindre une segmentation sans annotation. Le code source est disponible sur https://github.com/chongzhou96/MaskCLIP.