Semantische Prompt-Lernverfahren für schwach beschriftete semantische Segmentierung

Schwach beschriftete semantische Segmentierung (WSSS) zielt darauf ab, Segmentierungsmodelle mit Bildern zu trainieren, die lediglich über bildbezogene Beschriftungen verfügen. Da präzise pixelgenaue Annotationen nicht verfügbar sind, konzentrieren sich herkömmliche Methoden typischerweise darauf, durch Verfeinerung von CAM-ähnlichen Heatmaps sogenannte Pseudomaske zu erzeugen, um die Segmentierungsmodelle zu trainieren. Allerdings können die generierten Heatmaps lediglich diskriminative Regionen von Objektkategorien oder assoziierte, gemeinsam auftretende Hintergründe erfassen. Um diese Probleme anzugehen, schlagen wir den SemPLeS-Framework (Semantic Prompt Learning for WSSS) vor, der lernt, die CLIP-Latentraum effektiv zu prompten, um die semantische Ausrichtung zwischen den segmentierten Regionen und den Zielobjektkategorien zu verbessern. Genauer gesagt, stellen wir zwei Ansätze vor: Kontrastives Prompt-Lernen und promptgesteuerte semantische Verfeinerung, um Prompt-Elemente zu erlernen, die jeweils die Objektkategorien adäquat beschreiben und gleichzeitig die mit ihnen assoziierten Hintergründe unterdrücken. Auf diese Weise ermöglicht SemPLeS eine verbesserte semantische Ausrichtung zwischen Objektregionen und Klassenlabels, was zu gewünschten Pseudomaske führt, die für den Training von Segmentierungsmodellen geeignet sind. Der vorgeschlagene SemPLeS-Framework erreicht wettbewerbsfähige Ergebnisse auf den Standard-WSSS-Benchmarks PASCAL VOC 2012 und MS COCO 2014 und zeigt Kompatibilität mit anderen WSSS-Methoden. Code: https://github.com/NVlabs/SemPLeS.