Regionale semantische Kontrastierung und Aggregation für schwach überwachte semantische Segmentierung

Die Lernung von semantischer Segmentierung aus schwach beschrifteten Daten (z. B. nur mit Bildtags) ist herausfordernd, da es schwierig ist, dichte Objektregionen aus spärlichen semantischen Tags abzuleiten. Obwohl dieses Thema breit untersucht wurde, lernen die meisten aktuellen Ansätze direkt aus begrenzten semantischen Annotationen, die einzelne Bilder oder Bildpaare tragen, und haben Schwierigkeiten, integrale Lokalisationskarten zu erzeugen. Unser Ansatz adressiert diese Herausforderung aus einer neuartigen Perspektive, indem er reiche semantische Kontexte synergistisch aus einer großen Menge schwach beschrifteter Trainingsdaten für das Lernen und die Inferenz der Netzwerke nutzt. Insbesondere stellen wir regionale semantische Kontrastierung und Aggregation (RCA) vor. RCA verfügt über einen regionalen Speicher, der eine große Vielzahl und Vielfalt von Objektmustern aus den Trainingsdaten speichert und somit eine starke Unterstützung für die Exploration der datensatzweiten semantischen Struktur bietet. Insbesondere schlagen wir vor: i) semantische Kontrastierung, die das Netzwerk durch den Vergleich großer Mengen kategorialer Objektregionen anregt und zu einem umfassenderen Verständnis von Objektmustern führt, sowie ii) semantische Aggregation, die unterschiedliche relationale Kontexte aus dem Speicher zusammenführt, um die semantischen Repräsentationen zu bereichern. Auf diese Weise erlangt RCA eine starke Fähigkeit für fein granulare semantische Verständnis und erreicht schließlich neue SOTA-Ergebnisse auf zwei etablierten Benchmarks, nämlich PASCAL VOC 2012 und COCO 2014.