Segmentation sémantique faiblement supervisée assistée par modèle fondamental

Ce travail vise à exploiter des modèles fondamentaux pré-entraînés, tels que CLIP (Contrastive Language-Image Pre-training) et SAM (Segment Anything Model), afin de résoudre le problème de la segmentation sémantique faiblement supervisée (WSSS) à l’aide d’étiquettes au niveau d’image. À cette fin, nous proposons un cadre progressif de grossier à fin basé sur CLIP et SAM pour générer des graines de segmentation de haute qualité. Plus précisément, nous définissons une tâche de classification d’images et une tâche de segmentation de graines, qui sont simultanément traitées par CLIP à poids figés et par deux ensembles de prompts spécifiques à la tâche, ajustables. Un module de génération de graines basé sur SAM (SAMS) est conçu et appliqué à chacune de ces tâches afin de produire des cartes de graines grossières ou fines. En outre, nous proposons une perte contrastive multi-étiquettes supervisée par les étiquettes au niveau d’image, ainsi qu’une perte d’activation de CAM supervisée par la carte de graine grossière générée. Ces pertes sont utilisées pour apprendre les prompts, qui constituent les seules parties à être ajustées dans notre cadre. Une fois les prompts appris, chaque image est introduite dans CLIP ainsi que dans le module SAMS, accompagnée des prompts d’ajustement spécifiques à la segmentation, afin de produire des graines de segmentation de haute qualité. Ces graines servent de labels pseudo-étiquetés pour entraîner un réseau de segmentation standard, de manière similaire aux méthodes WSSS à deux étapes existantes. Les expériences montrent que notre méthode atteint un état de l’art sur PASCAL VOC 2012 et des résultats compétitifs sur MS COCO 2014. Le code source est disponible à l’adresse suivante : https://github.com/HAL-42/FMA-WSSS.git.