FreeSeg: Freier Masken-Output aus interpretierbarer kontrastiver Sprache-Bild-Vortrainierung für semantische Segmentierung

Vollständig überwachte semantische Segmentierung lernt aus dichten Masken, was bei geschlossenen Szenarien einen erheblichen Annotationaufwand erfordert. In diesem Artikel nutzen wir natürliche Sprache als Überwachungssignal, ohne dabei jegliche pixelgenaue Annotationen zu benötigen, was die offene Welt-Segmentierung ermöglicht. Wir bezeichnen den vorgeschlagenen Ansatz als FreeSeg, bei dem die Maske direkt aus dem Rohfeature-Map eines vortrainierten Modells gewonnen wird. Im Gegensatz zu Zero-Shot- oder Open-Set-Segmentierung benötigt FreeSeg keinerlei annotierte Masken und erweitert die Vorhersage von Kategorien weit über die klassenunabhängige unüberwachte Segmentierung hinaus. Konkret gewinnt FreeSeg die freie Maske aus der Bild-Text-Ähnlichkeitskarte (ITSM) des interpretierbaren kontrastiven Bild-Sprache-Vortrainings (ICLIP). Die zentralen Verbesserungen liegen in der geglätteten Min-Pooling-Strategie für dichte ICLIP-Daten sowie in den partiellen Label- und Pixel-Strategien für die Segmentierung. Zudem ist FreeSeg äußerst einfach aufgebaut und erfordert keine komplexen Mechanismen wie Gruppierung, Clustering oder Retrieval. Neben der Einfachheit übertrifft die Leistung von FreeSeg die bisherigen State-of-the-Art-Methoden deutlich, beispielsweise um 13,4 Prozentpunkte bei der mIoU auf dem VOC-Datensatz unter gleichen Bedingungen.