Exploration de prototypes spécifiques à l'image par apprentissage auto-supervisé pour la segmentation sémantique faiblement supervisée

La segmentation sémantique faiblement supervisée (WSSS) basée sur des étiquettes au niveau d’image a attiré une attention croissante en raison de ses faibles coûts d’annotation. Les méthodes existantes reposent souvent sur la carte d’activation de classe (CAM), qui mesure la corrélation entre les pixels d’une image et les poids du classificateur. Toutefois, le classificateur ne se concentre que sur les régions discriminantes, en ignorant d’autres informations utiles présentes dans chaque image, ce qui conduit à des cartes de localisation incomplètes. Pour résoudre ce problème, nous proposons une exploration auto-supervisée de prototypes spécifiques à l’image (SIPE), composée d’une exploration de prototypes spécifiques à l’image (IPE) et d’une perte de cohérence générale-spécifique (GSC). Plus précisément, l’IPE conçoit des prototypes adaptés à chaque image afin de capturer des régions complètes, ce qui donne naissance à notre CAM spécifique à l’image (IS-CAM), réalisée en deux étapes séquentielles. En outre, la perte GSC est introduite pour établir une cohérence entre la CAM générale et notre IS-CAM spécifique, ce qui améliore davantage la représentation des caractéristiques et confère une capacité d’autocorrection à l’exploration des prototypes. Des expérimentations étendues ont été menées sur les benchmarks de segmentation PASCAL VOC 2012 et MS COCO 2014, et les résultats démontrent que notre méthode SIPE atteint de nouveaux états de l’art en utilisant uniquement des étiquettes au niveau d’image. Le code est disponible à l’adresse suivante : https://github.com/chenqi1126/SIPE.