Universelle schwach überwachte Segmentierung durch pixel-zu-segment kontrastive Lernverfahren

Schwach beschriftete Segmentierung erfordert die Zuordnung eines Labels zu jedem Pixel basierend auf Trainingsinstanzen mit partiellen Annotationen, wie beispielsweise Bild-Level-Tags, Objekt-Bounding-Boxes, markierten Punkten oder Skizzen. Diese Aufgabe ist herausfordernd, da grobe Annotationen (Tags, Boxes) eine präzise Pixellokalisation fehlen, während spärliche Annotationen (Punkte, Skizzen) eine umfassende räumliche Abdeckung der Regionen vermissen. Bestehende Methoden behandeln diese beiden Arten schwacher Supervision unterschiedlich: Klassifizierungsaktivierungskarten werden eingesetzt, um grobe Labels zu lokalisieren und das Segmentierungsmodell iterativ zu verfeinern, während bedingte zufällige Felder verwendet werden, um spärliche Labels auf die gesamte Bildfläche zu propagieren.Wir formulieren die schwach beschriftete Segmentierung als ein semi-supervisiertes Metrik-Lernproblem, bei dem Pixel mit gleicher (verschiedener) Semantik auf gleiche (unterschiedliche) Merkmale abgebildet werden müssen. Wir schlagen vier Arten von kontrastiven Beziehungen zwischen Pixeln und Segmenten im Merkmalsraum vor, die niedrigstufige Bildähnlichkeit, semantische Annotation, Ko-Vorkommen und Merkmalsaffinität erfassen. Diese dienen als Vorwissen; die pixelweisen Merkmale können datengetrieben aus Trainingsbildern mit beliebigen partiellen Annotationen gelernt werden. Insbesondere nehmen nicht annotierte Pixel in den Trainingsbildern nicht nur an datengetriebenen Gruppierungen innerhalb jedes Bildes, sondern auch an der diskriminativen Merkmalslernung innerhalb und zwischen Bildern teil. Wir präsentieren einen universellen schwach beschrifteten Segmentierer, der erhebliche Verbesserungen auf Pascal VOC und DensePose erzielt. Unser Code ist öffentlich unter https://github.com/twke18/SPML verfügbar.