Untersuchung regionaler Hinweise in CLIP für zero-shot semantische Segmentierung

CLIP hat aufgrund seiner leistungsfähigen Vortrainingsphase auf großskaligen Bild-Text-Paaren erhebliche Fortschritte in der visuellen Erkennung gezeigt. Dennoch bleibt eine zentrale Herausforderung bestehen: Wie kann Wissen auf Bildebene in Aufgaben der pixelgenauen Verständniserkennung, wie beispielsweise der semantischen Segmentierung, übertragen werden? In diesem Artikel analysieren wir die Lücke zwischen den Fähigkeiten des CLIP-Modells und den Anforderungen der zero-shot-semantischen Segmentierungsaufgabe. Auf Basis unserer Analyse und Beobachtungen stellen wir eine neuartige Methode zur zero-shot-semantischen Segmentierung vor, die wir CLIP-RC (CLIP with Regional Clues) nennen, und liefern zwei zentrale Erkenntnisse. Einerseits ist eine regionale Brücke notwendig, um feinabgestimmte Semantik bereitzustellen. Andererseits sollte Überanpassung im Trainingsprozess gemindert werden. Dank dieser Erkenntnisse erreicht CLIP-RC state-of-the-art-Leistung auf verschiedenen benchmarks für zero-shot-semantische Segmentierung, darunter PASCAL VOC, PASCAL Context und COCO-Stuff 164K. Der Quellcode wird unter https://github.com/Jittor/JSeg verfügbar sein.