Foundation Model-gestützte schwach überwachte semantische Segmentierung

Diese Arbeit zielt darauf ab, vortrainierte Grundmodellen wie Contrastive Language-Image Pre-training (CLIP) und Segment Anything Model (SAM) zu nutzen, um die schwach überwachte semantische Segmentierung (WSSS) unter Verwendung von bildbasierten Labels zu lösen. Dazu schlagen wir einen grob-zu-fein-Framework vor, der auf CLIP und SAM basiert, um hochwertige Segmentierungssamen zu generieren. Konkret stellen wir eine Bildklassifizierungsaufgabe und eine Samen-Segmentierungsaufgabe auf, die gemeinsam von CLIP mit fixierten Gewichten und zwei Sätzen lernbarer, aufgabenbezogener Prompts bearbeitet werden. Ein auf SAM basierender Samen-Generierungsmodul (SAMS) wird für jede Aufgabe entworfen und angewandt, um entweder grobe oder feine Samenkarten zu erzeugen. Darüber hinaus entwerfen wir eine mehrfach-label-basierte kontrastive Verlustfunktion, die durch bildbasierte Labels supervidiert wird, sowie eine CAM-Aktivierungsverlustfunktion, die durch die generierten groben Samenkarten supervidiert wird. Diese Verluste dienen dazu, die Prompts zu lernen, die die einzigen Teile in unserem Framework sind, die gelernt werden müssen. Sobald die Prompts gelernt sind, geben wir jedes Bild zusammen mit den gelernten segmentationspezifischen Prompts in CLIP und das SAMS-Modul ein, um hochwertige Segmentierungssamen zu erzeugen. Diese Samen fungieren als Pseudolabels, um ein herkömmliches Segmentierungsnetzwerk wie andere zweistufige WSSS-Methoden zu trainieren. Experimente zeigen, dass unsere Methode auf PASCAL VOC 2012 die derzeit beste Leistung erzielt und auf MS COCO 2014 konkurrenzfähige Ergebnisse erzielt. Der Quellcode ist unter https://github.com/HAL-42/FMA-WSSS.git verfügbar.