Hierarchische semantische Kontrastierung für schwach überwachte semantische Segmentierung

Schwach beschriftete semantische Segmentierung (WSSS) mit Bild-Level-Anmerkungen hat durch die Nutzung von Class Activation Maps (CAM) erhebliche Fortschritte erzielt. Da herkömmliche CAMs kaum als Leitfaden dienen können, um die Lücke zwischen vollständiger und schwacher Supervision zu schließen, untersuchen jüngere Studien semantische Darstellungen, um CAMs besser für WSSS geeignet zu machen, und zeigen vielversprechende Ergebnisse. Allerdings nutzen sie im Allgemeinen nur einstufige Semantik, was die Fähigkeit des Modells einschränken kann, eine umfassende semantische Struktur zu erlernen. Ausgehend von der Annahme, dass jedes Bild mehrere Ebenen von Semantik aufweist, schlagen wir hierarchische semantische Kontrastierung (HSC) vor, um dieses Problem zu überwinden. HSC führt den semantischen Kontrast von grob bis fein durch – auf Ebene von Regionen interessierter Objekte (ROI), Klassen und Pixeln – und ermöglicht es dem Modell, ein verbessertes Verständnis für Objektmuster zu erlernen. Um die Qualität von CAM weiter zu steigern, bauen wir auf HSC auf und erforschen eine Konsistenz-Regularisierung über verschiedene Supervisionsarten hinaus sowie eine Momentum-Prototypen-Lernmethode, um die reichhaltige Semantik über verschiedene Bilder hinweg effizient auszunutzen. Umfassende Studien belegen, dass unser plug-and-play Lernparadigma, HSC, die Qualität von CAM erheblich verbessert – sowohl bei Baselines ohne als auch bei solchen mit Saliency-Leitungen – und die bisher beste Leistung auf dem PASCAL VOC 2012-Datensatz erreicht.