TransFGU: Ein top-down Ansatz für feinkörnige unsupervisierte semantische Segmentierung

Unsupervisierte semantische Segmentierung zielt darauf ab, hochwertige semantische Darstellungen aus niedrigstufigen visuellen Merkmalen ohne manuelle Annotationen zu erlangen. Die meisten bestehenden Ansätze sind bottom-up-Verfahren, die versuchen, Pixel basierend auf visuellen Hinweisen oder bestimmten vordefinierten Regeln in Regionen zu gruppieren. Dadurch ist es diesen bottom-up-Ansätzen schwer, fein granulierte semantische Segmentierungen in komplexen Szenen mit mehreren Objekten zu erzeugen, insbesondere wenn einige Objekte eine ähnliche visuelle Erscheinung aufweisen. Im Gegensatz dazu stellen wir den ersten top-down-ansatzbasierten Rahmen für unsupervisierte semantische Segmentierung vor, der speziell auf fein granulierte Segmentierung in äußerst komplexen Szenarien abgestimmt ist. Konkret gewinnen wir zunächst reichhaltige, hochstufige strukturierte semantische Konzeptinformationen aus großskaligen Sichtdaten mittels selbstüberwachten Lernverfahren und nutzen diese Information als Vorwissen, um potenzielle semantische Kategorien in den Ziel-Datensätzen zu identifizieren. Anschließend werden die entdeckten hochstufigen semantischen Kategorien durch Berechnung der Klassenaktivierungskarte (Class Activation Map, CAM) bezüglich bestimmter entdeckter semantischer Darstellungen auf niedrigstufige Pixelmerkmale abgebildet. Schließlich dienen die gewonnenen CAMs als Pseudolabels, um das Segmentierungsmodul zu trainieren und die endgültige semantische Segmentierung zu erzeugen. Experimentelle Ergebnisse auf mehreren semantischen Segmentierungsbenchmarks zeigen, dass unser top-down-basierter Ansatz sowohl für objektorientierte als auch für szenenorientierte Datensätze unter verschiedenen semantischen Granularitätsstufen robust ist und alle aktuellen state-of-the-art bottom-up-Methoden übertrifft. Der Quellcode ist unter \url{https://github.com/damo-cv/TransFGU} verfügbar.