Entkopplung der zero-shot semantischen Segmentierung

Zero-shot-Semantische Segmentierung (ZS3) zielt darauf ab, neue Kategorien zu segmentieren, die während des Trainings nicht gesehen wurden. Bisherige Ansätze formulieren ZS3 als ein pixelbasiertes Zero-shot-Klassifikationsproblem und übertragen semantisches Wissen von gesehenen auf nicht gesehene Klassen mithilfe von Sprachmodellen, die ausschließlich mit Texten vortrainiert wurden. Obwohl dieser Ansatz einfach ist, zeigt die pixelbasierte Formulierung eine begrenzte Fähigkeit, Vision-Sprache-Modelle zu integrieren, die typischerweise mit Bild-Text-Paaren vortrainiert werden und derzeit großes Potenzial für visuelle Aufgaben zeigen. Ausgehend von der Beobachtung, dass Menschen häufig semantische Bezeichnungen auf Segmentebene durchführen, schlagen wir vor, ZS3 in zwei Teilprobleme zu zerlegen: 1) eine klassenunabhängige Gruppierungsaufgabe, um Pixel in Segmente zu gruppieren, und 2) eine Zero-shot-Klassifikationsaufgabe auf Segmentebene. Die erste Aufgabe beinhaltet keine Kategorieninformation und kann direkt auf nicht gesehene Klassen übertragen werden. Die zweite Aufgabe erfolgt auf Segmentebene und ermöglicht eine natürliche Nutzung großer Vision-Sprache-Modelle, die mit Bild-Text-Paaren vortrainiert wurden (z. B. CLIP), für ZS3. Auf Basis dieser Dekomposition stellen wir ein einfaches und wirksames Modell zur Zero-shot-Semantischen Segmentierung vor, namens ZegFormer, das die bisherigen Methoden auf Standardbenchmarks für ZS3 deutlich übertrifft, beispielsweise um 22 Punkte auf PASCAL VOC und um 3 Punkte auf COCO-Stuff hinsichtlich der mIoU für nicht gesehene Klassen. Der Quellcode wird unter https://github.com/dingjiansw101/ZegFormer veröffentlicht.