Selbstüberwachte, bildspezifische Prototypen-Exploration für schwach überwachte semantische Segmentierung

Schwach beschriftete semantische Segmentierung (Weakly Supervised Semantic Segmentation, WSSS) auf Basis von Bild-Level-Labels hat aufgrund der geringen Annotierungskosten erhebliche Aufmerksamkeit erlangt. Bestehende Methoden beruhen häufig auf der Class Activation Mapping (CAM), die die Korrelation zwischen Bildpixeln und Klassifikator-Gewichten misst. Allerdings konzentriert sich der Klassifikator ausschließlich auf diskriminative Regionen und ignoriert andere nützliche Informationen innerhalb jedes Bildes, was zu unvollständigen Lokalisationskarten führt. Um dieses Problem anzugehen, schlagen wir eine selbstüberwachte, bildspezifische Prototypenexploration (Self-supervised Image-specific Prototype Exploration, SIPE) vor, die aus einer Bildspezifischen Prototypenexploration (Image-specific Prototype Exploration, IPE) und einer General-Specific Consistency (GSC)-Verlustfunktion besteht. Konkret passt IPE für jedes Bild individuell Prototypen an, um vollständige Regionen zu erfassen, wodurch unsere Bildspezifische CAM (IS-CAM) entsteht, die durch zwei aufeinanderfolgende Schritte realisiert wird. Zudem wird die GSC-Verlustfunktion vorgeschlagen, um die Konsistenz zwischen der allgemeinen CAM und unserer spezifischen IS-CAM zu gewährleisten, was die Merkmalsdarstellung weiter verbessert und eine Selbstkorrekturfähigkeit der Prototypenexploration ermöglicht. Umfangreiche Experimente wurden auf den Segmentierungsbenchmarks PASCAL VOC 2012 und MS COCO 2014 durchgeführt, und die Ergebnisse zeigen, dass unsere SIPE mit lediglich Bild-Level-Labels eine neue state-of-the-art-Leistung erzielt. Der Quellcode ist unter https://github.com/chenqi1126/SIPE verfügbar.