Schätzung von Unsicherheiten mittels Antwortskalierung zur Minderung von Pseudo-Masken-Rauschen bei schwach beschrifteter semantischer Segmentierung

Schwach beschriftete semantische Segmentierung (Weakly-Supervised Semantic Segmentation, WSSS) ermöglicht die Segmentierung von Objekten ohne die hohe Belastung durch dichte Annotationen. Allerdings führen die dabei generierten Pseudomaske zu offensichtlichen Rauschpixeln, was zu suboptimalen Segmentierungsmodellen führt, die auf diesen Pseudomaske trainiert werden. Dennoch haben nur wenige Studien dieses Problem erkannt oder adressiert, obwohl diese Rauschpixel auch nach Verbesserungen der Pseudomaske unvermeidbar sind. Daher setzen wir uns in diesem Werk mit der Verbesserung von WSSS im Hinblick auf die Rauschreduzierung auseinander. Wir beobachten, dass viele Rauschpixel eine hohe Konfidenz aufweisen, insbesondere wenn der Reaktionsbereich zu groß oder zu klein ist und somit einen unsicheren Zustand darstellt. Um dies zu erfassen, simulieren wir in diesem Beitrag durch mehrfache Skalierung der Vorhersagemap verschiedene Rauschvariationen zur Schätzung der Unsicherheit. Diese Unsicherheit wird anschließend zur Gewichtung des Segmentierungsverlustes verwendet, um die Störung durch verrauschte Supervisionssignale zu verringern. Wir bezeichnen diese Methode als URN (Uncertainty estimation via Response scaling for Noise mitigation). Experimente bestätigen die Vorteile von URN, wobei unsere Methode state-of-the-art-Ergebnisse von 71,2 % auf PASCAL VOC 2012 und 41,5 % auf MS COCO 2014 erzielt – ohne zusätzliche Modelle wie Aufmerksamkeitsdetektion. Der Quellcode ist unter https://github.com/XMed-Lab/URN verfügbar.