Kausale Intervention für schwach beschriftete semantische Segmentierung

Wir präsentieren einen kausalen Inferenzansatz zur Verbesserung der schwach überwachten semantischen Segmentierung (Weakly-Supervised Semantic Segmentation, WSSS). Insbesondere zielen wir darauf ab, qualitativ bessere pixelweise Pseudomaske durch Nutzung lediglich von bildweisen Etiketten zu generieren – den entscheidenden Schritt in der WSSS. Wir weisen die unscharfen Grenzen der Pseudomaske auf einen verwechselnden Kontext zurück: So kann die korrekte bildweise Klassifikation von „Pferd“ und „Mensch“ nicht ausschließlich auf die Erkennung einzelner Instanzen zurückzuführen sein, sondern auch auf deren gemeinsame Erscheinung im Bild, was die Modellinterpretation (z. B. mittels CAM) erschwert, zwischen den Grenzen zu unterscheiden. Inspiriert hierdurch entwickeln wir ein strukturelles kausales Modell, um die kausalen Beziehungen zwischen Bildern, Kontexten und Klassenlabels zu analysieren. Darauf aufbauend stellen wir eine neue Methode, Context Adjustment (CONTA), vor, die den verwechselnden Bias bei der bildweisen Klassifikation beseitigt und somit präzisere Pseudomaske als Ground-Truth für das nachfolgende Segmentierungsmodell bereitstellt. Auf den Datensätzen PASCAL VOC 2012 und MS-COCO zeigen wir, dass CONTA verschiedene etablierte WSSS-Methoden auf neue State-of-the-Art-Leistungen verbessert.