Freie dichte Labels aus CLIP extrahieren

Contrastive Language-Image Pre-training (CLIP) hat einen bemerkenswerten Durchbruch in der offenen Vokabular Zero-Shot-Bilderkennung erzielt. Viele kürzliche Studien nutzen die vorgefertigten CLIP-Modelle für bildbasierte Klassifikation und Manipulation. In dieser Arbeit möchten wir das intrinsische Potenzial von CLIP für pixelbasierte dichte Vorhersage, insbesondere in der semantischen Segmentierung, untersuchen. Zu diesem Zweck zeigen wir mit minimalen Änderungen, dass MaskCLIP überzeugende Segmentierungsresultate auf offenen Konzepten in verschiedenen Datensätzen ohne Annotationen und Feinabstimmung liefert. Durch das Hinzufügen von Pseudobeschriftungen und Selbsttraining übertreffen MaskCLIP+ die besten transduktiven Zero-Shot-Semantiksegmentierungsmethoden um große Margen, z.B. werden die mIoUs (mean Intersection over Union) der unbekannten Klassen auf PASCAL VOC/PASCAL Context/COCO Stuff von 35,6/20,7/30,3 auf 86,1/66,7/54,7 verbessert. Wir testen auch die Robustheit von MaskCLIP bei Eingangsverfälschungen und bewerten seine Fähigkeit zur Unterscheidung feingranulärer Objekte und neuer Konzepte. Unsere Ergebnisse deuten darauf hin, dass MaskCLIP als neue zuverlässige Quelle der Überwachung für dichte Vorhersageaufgaben dienen kann, um eine segmentierung ohne Annotation zu erreichen. Der Quellcode ist unter https://github.com/chongzhou96/MaskCLIP verfügbar.