Zuverlässigkeit zählt: Ein end-to-end ansatz für schwach überwachte semantische Segmentierung

Schwach beschriftete semantische Segmentierung ist eine anspruchsvolle Aufgabe, da sie lediglich bilddatenbasierte Informationen als Supervision für das Training nutzt, aber dennoch pixelgenaue Vorhersagen für die Testphase erzeugen muss. Um dieser Herausforderung zu begegnen, schlagen die meisten aktuellen state-of-the-art-Ansätze zweistufige Lösungen vor, nämlich 1) das Lernen zur Generierung von Pseudomasken auf Pixel-Ebene und 2) die Nutzung von Fully Convolutional Networks (FCNs), um die semantischen Segmentierungsnetzwerke mit diesen Pseudomasken zu trainieren. Allerdings setzen diese zweistufigen Ansätze oft zahlreiche zusätzliche Komponenten und Heuristiken ein, um hochwertige Pseudomasken zu erzeugen, was diese Methoden komplex und unübersichtlich macht. In dieser Arbeit nutzen wir die bilddatenbasierten Labels, um zuverlässige Annotationen auf Pixel-Ebene zu generieren, und entwerfen ein vollständig end-to-end Netzwerk, das lernt, Segmentierungskarten vorherzusagen. Konkret nutzen wir zunächst einen Zweig für Bildklassifikation, um Klassifizierungsaktivierungskarten für die annotierten Kategorien zu erzeugen, die anschließend in zuverlässige, jedoch kleine Regionen von Objekten bzw. Hintergrund herausgefiltert werden. Diese zuverlässigen Regionen dienen direkt als Ground-Truth-Labels für einen parallelen Segmentierungs-Zweig, in dem eine neu entwickelte dichte Energieverlustfunktion zur Optimierung eingesetzt wird. Trotz seiner offensichtlichen Einfachheit erreicht unsere einstufige Lösung auf dem Pascal VOC-Datensatz wettbewerbsfähige mIoU-Werte (val: 62,6; test: 62,9), die mit jenen der zweistufigen state-of-the-art-Methoden vergleichbar sind. Durch die Erweiterung unserer einstufigen Methode zu einer zweistufigen Vorgehensweise erzielen wir eine neue state-of-the-art-Leistung auf Pascal VOC (val: 66,3; test: 66,5).