Schwellenwerte spielen eine entscheidende Rolle in WSSS: Die Manipulation der Aktivierung für ein robusteres und genaues Segmentierungsmodell gegenüber Schwellenwerten

Schwach beschriftete semantische Segmentierung (WSSS) hat in letzter Zeit erhebliche Aufmerksamkeit erhalten, da sie die Möglichkeit bietet, Segmentierungsmodelle ausschließlich anhand von Bildlevel-Labels zu trainieren. Bisherige WSSS-Methoden argumentieren häufig, dass die spärliche Abdeckung der CAM (Class Activation Maps) die Leistungsgrenze von WSSS darstelle. In dieser Arbeit liefern wir analytische und empirische Belege dafür, dass die eigentliche Leistungsgrenze möglicherweise nicht in der spärlichen Abdeckung, sondern in einer globalen Schwellenwert-Regelung nach der CAM liegt. Anschließend zeigen wir, dass dieses Problem durch die Erfüllung zweier Bedingungen gemildert werden kann: 1) Verringerung der Ungleichgewichtigkeit in der Aktivierung des Vordergrunds und 2) Vergrößerung der Lücke zwischen der Aktivierung des Vorder- und Hintergrunds. Aufgrund dieser Erkenntnisse schlagen wir ein neuartiges Aktivierungsmanipulationsnetzwerk vor, das eine pro-Pixel-Klassifikationsverlustfunktion und ein Label-Conditioning-Modul beinhaltet. Die pro-Pixel-Klassifikation induziert natürlich eine zweistufige Aktivierung in den Aktivierungskarten, wodurch die höchst differenzierenden Bereiche bestraft, weniger differenzierende Bereiche gefördert und Hintergrundregionen deaktiviert werden. Das Label-Conditioning stellt sicher, dass die Ausgabe der Pseudomaske eine der tatsächlichen Bildlevel-Labels sein muss; es bestraft falsche Aktivierungen, die nicht den Zielklassen zugeordnet sind. Aufgrund umfassender Analysen und Evaluierungen zeigen wir, dass jedes einzelne Modul dazu beiträgt, präzise Pseudomaske zu erzeugen und die Robustheit gegenüber der Wahl der globalen Schwellenwertregelung zu erhöhen. Schließlich erreicht unser Modell Spitzenleistungen auf den Datensätzen PASCAL VOC 2012 und MS COCO 2014.