Offen-vokabuläre semantische Segmentierung mit maskenanpassischem CLIP

Open-vocabulary-Semantische Segmentierung zielt darauf ab, ein Bild in semantische Regionen zu segmentieren, basierend auf Textbeschreibungen, die während des Trainings möglicherweise nicht vorkamen. Rekente Zwei-Stufen-Methoden generieren zunächst klassenunabhängige Masken-Vorschläge und nutzen anschließend vortrainierte Vision-Sprache-Modelle, beispielsweise CLIP, um die maskierten Regionen zu klassifizieren. Wir identifizieren den Leistungsengpass dieses Paradigmas in dem vortrainierten CLIP-Modell, da es auf maskierten Bildern nicht gut abschneidet. Um dies zu beheben, schlagen wir vor, CLIP auf einer Sammlung maskierter Bildregionen und deren entsprechenden Textbeschreibungen zu fine-tunen. Die Trainingsdaten sammeln wir durch Auswertung eines bestehenden Bild-Text-Datensatzes (z. B. COCO Captions), indem wir CLIP verwenden, um maskierte Bildregionen mit Substantiven aus den Bildbeschreibungen zu verknüpfen. Im Vergleich zu präziseren, manuell annotierten Segmentierungslabels mit festen Klassen (z. B. COCO-Stuff) stellen wir fest, dass unser rauschhafter, aber vielfältiger Datensatz die Generalisierungsfähigkeit von CLIP besser bewahrt. Zusätzlich zum Fine-Tuning des gesamten Modells nutzen wir die „leeren“ Bereiche in maskierten Bildern mittels einer Methode, die wir Mask-Prompt-Tuning nennen. Experimente zeigen, dass Mask-Prompt-Tuning erhebliche Verbesserungen bringt, ohne dass irgendwelche Gewichte von CLIP verändert werden müssen, und zusätzlich ein vollständig fine-tuntes Modell weiter verbessern kann. Insbesondere erreicht unser bestes Modell, wenn es auf COCO trainiert und auf ADE20K-150 evaluiert wird, eine mIoU von 29,6 % – das entspricht einer Steigerung um 8,5 % gegenüber dem vorherigen Stand der Technik. Zum ersten Mal erreichen Open-vocabulary-Generalmuster die Leistung von überwachten Spezialmodellen aus dem Jahr 2017, ohne anpassungsspezifische Anpassungen an den Datensatz vorzunehmen.