MARS: Modell-agnostische Entfernung verzerrender Objekte ohne zusätzliche Überwachung für schwach überwachte semantische Segmentierung

Schwach beschriftete semantische Segmentierung zielt darauf ab, die Kosten für die Beschriftung zu reduzieren, indem semantische Segmentierungsmodelle mit schwacher Aufsicht – beispielsweise bildweisen Klassenlabels – trainiert werden. Allerdings stoßen die meisten Ansätze auf Schwierigkeiten bei der Generierung genauer Lokalisationskarten und leiden unter falschen Vorhersagen im Zusammenhang mit klassenbezogenen Hintergründen (d. h. verfälschten Objekten), wie etwa der Erkennung einer Eisenbahn als Klasse „Zug“. Neuere Methoden, die verfälschte Objekte entfernen, erfordern zusätzliche Aufsicht, um verfälschte Objekte für jede problematische Klasse manuell zu identifizieren und deren Datensätze durch Überprüfung von Vorhersagen zu sammeln, was ihre Anwendbarkeit auf reale Datensätze mit mehreren Labels und komplexen Verzerrungsbeziehungen einschränkt. Ausgehend von der ersten Beobachtung, dass verfälschte Merkmale durch die Zuordnung verfälschter Objekte zu Hintergründen innerhalb desselben Datensatzes getrennt und eliminiert werden können, stellen wir einen vollständig automatischen und modellunabhängigen Ansatz zur Entfernung von Verzerrungen vor, genannt MARS (Model-Agnostic biased object Removal without additional Supervision). MARS nutzt semantisch konsistente Merkmale einer unsupervisierten Technik, um verfälschte Objekte in Pseudolabels zu eliminieren. Überraschenderweise zeigen wir, dass MARS auf zwei etablierten Benchmarks, PASCAL VOC 2012 (val: 77,7 %, test: 77,2 %) und MS COCO 2014 (val: 49,4 %), neue SOTA-Ergebnisse erzielt, indem die Leistung verschiedener WSSS-Modelle konsequent um mindestens 30 % verbessert wird – und das ohne zusätzliche Aufsicht.