Neubewertung von Alignment und Uniformity bei der überwachungsfreien semantischen Segmentierung

Unsupervised Image Semantic Segmentation (UISS) zielt darauf ab, niedrigstufige visuelle Merkmale ohne externe Aufsicht mit semantischen Repräsentationen zu verbinden. In diesem Paper untersuchen wir kritische Eigenschaften von UISS-Modellen aus der Perspektive der Merkmalsausrichtung und Merkmalsuniformität. Zudem führen wir einen Vergleich zwischen UISS und bildweiser Repräsentationslernung durch. Auf Basis dieser Analyse argumentieren wir, dass bestehende MI-basierte Methoden in UISS unter Repräsentationskollaps leiden. Darauf aufbauend schlagen wir ein robusteres Netzwerk namens Semantic Attention Network (SAN) vor, das ein neues Modul, das Semantic Attention (SEAT), einführt, um pixelweise und semantische Merkmale dynamisch zu generieren. Experimentelle Ergebnisse auf mehreren Benchmarks für semantische Segmentierung zeigen, dass unser unsupervisiertes Segmentierungsframework besonders gut darin ist, semantische Repräsentationen zu erfassen, und sowohl alle nicht vortrainierten als auch mehrere vortrainierte Methoden übertrifft.