Ausnutzung versteckter Positiven für die überwachungsfreie semantische Segmentierung

Die drastische Nachfrage nach personeller Kapazität zur Erstellung pixelgenauer Annotationen hat den Aufstieg der unsupervised semantischen Segmentierung ermöglicht. Obwohl jüngste Ansätze, die einen Vision Transformer (ViT)-Backbone einsetzen, herausragende Leistung erzielen, bleibt die Berücksichtigung von aufgabe-spezifischem Trainingsleitfaden und lokaler semantischer Konsistenz weiterhin ungenügend. Um diese Probleme anzugehen, nutzen wir kontrastives Lernen, indem wir versteckte positive Beispiele erschließen, um reichhaltige semantische Beziehungen zu lernen und die semantische Konsistenz in lokalen Regionen zu gewährleisten. Konkret identifizieren wir zunächst zwei Arten globaler versteckter positiver Beispiele für jeden Anchor: task-agnostische und task-spezifische, basierend jeweils auf den Merkmalsähnlichkeiten, die durch einen festen vortrainierten Backbone und einen im Training befindlichen Segmentierungshead definiert werden. Die schrittweise Erhöhung des Beitrags der letzteren führt dazu, dass das Modell aufgabe-spezifische semantische Merkmale erfasst. Darüber hinaus führen wir eine Gradienten-Propagationsstrategie ein, um die semantische Konsistenz zwischen benachbarten Patchen zu lernen, unter der inhärenten Annahme, dass benachbarte Patchen eine hohe Wahrscheinlichkeit besitzen, dieselbe Semantik aufzuweisen. Genauer gesagt, fügen wir die Verlustfunktion proportional zu vordefinierten Ähnlichkeitswerten den lokalen versteckten positiven Beispielen hinzu, die semantisch ähnliche benachbarte Patchen darstellen. Durch diese Trainingsstrategien erreicht unser vorgeschlagener Ansatz neue State-of-the-Art (SOTA)-Ergebnisse auf den Datensätzen COCO-stuff, Cityscapes und Potsdam-3. Unser Code ist verfügbar unter: https://github.com/hynnsk/HP.