PiCIE: Unsupervised Semantic Segmentation unter Verwendung von Invarianz und Equivarianz im Clustering

Wir präsentieren einen neuen Ansatz für die semantische Segmentierung ohne Annotationen mittels Clustering. Herkömmliche Clustering-Methoden sind auf kuratierte, eindeutig beschriftete und objektorientierte Bilder beschränkt, während echte Welt-Daten dominanterweise unkuratiert, mehrfach beschriftet und szenenorientiert sind. Wir erweitern das Clustering von Bildern auf Pixel-Ebene und weisen innerhalb jedes Bildes unterschiedlichen Instanzen jeweils separate Clustermembership-Zuordnungen zu. Allerdings führt eine reine Abhängigkeit von pixelweiser Merkmalsähnlichkeit dazu, dass hochwertige semantische Konzepte nicht erlernt werden können und das Modell stattdessen übermäßig auf niedrigstufige visuelle Hinweise überanpasst. Wir schlagen eine Methode vor, geometrische Konsistenz als induktiven Bias einzubinden, um Invarianz und Äquivarianz gegenüber photometrischen und geometrischen Variationen zu lernen. Durch unser neuartiges Lernziel kann unser Framework hochwertige semantische Konzepte erlernen. Unsere Methode, PiCIE (Pixel-level feature Clustering using Invariance and Equivariance), ist die erste Methode, die sowohl Dinge als auch Sachen ohne jegliche Hyperparameter-Tuning oder aufgabe-spezifische Vorverarbeitung segmentieren kann. Unser Ansatz übertrifft bestehende Baselines auf COCO und Cityscapes deutlich um +17,5 Acc. und +4,5 mIoU. Wir zeigen, dass PiCIE eine bessere Initialisierung für den standardmäßigen überwachten Trainingsprozess liefert. Der Quellcode ist unter https://github.com/janghyuncho/PiCIE verfügbar.