il y a 17 jours

SegCLIP : Agrégation de patches avec des centres apprenables pour la segmentation sémantique à vocabulaire ouvert

Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li

Résumé

Récemment, le préentraînement contrastif langage-image, tel que CLIP, a fait preuve de résultats prometteurs sur diverses tâches en aval. Le modèle préentraîné est capable de capturer des concepts visuels enrichis pour les images en apprenant à partir d’un grand volume de données image-texte. Toutefois, le transfert des connaissances visuelles acquises vers la segmentation sémantique à vocabulaire ouvert reste peu exploré. Dans cet article, nous proposons un modèle basé sur CLIP, nommé SegCLIP, destiné à la segmentation à vocabulaire ouvert de manière sans annotation. SegCLIP réalise la segmentation à partir d’un modèle ViT, et son principe central consiste à regrouper les patches d’image autour de centres apprenables afin de les associer à des régions sémantiques, via l’entraînement sur des paires image-texte. Cette opération de regroupement permet de capturer dynamiquement des groupes sémantiques, qui peuvent ensuite être utilisés pour générer les résultats finaux de segmentation. Nous proposons également une perte de reconstruction sur les patches masqués, ainsi qu’une perte KL basée sur les superpixels et étiquettes pseudo-étiquetées, afin d’améliorer la représentation visuelle. Les résultats expérimentaux montrent que notre modèle atteint une précision de segmentation comparable ou supérieure aux méthodes de référence sur les jeux de données PASCAL VOC 2012 (+0,3 % de mIoU), PASCAL Context (+2,3 % de mIoU) et COCO (+2,2 % de mIoU). Le code source est mis à disposition à l’adresse suivante : https://github.com/ArrowLuo/SegCLIP.