Lernen selbstüberwachter niedrigrangiger Netze für einstufige schwach- und halbüberwachte semantische Segmentierung

Semantische Segmentierung mit begrenzten Annotationen, wie beispielsweise schwach überwachte semantische Segmentierung (WSSS) und halb überwachte semantische Segmentierung (SSSS), ist eine herausfordernde Aufgabe, die in letzter Zeit erhebliche Aufmerksamkeit erregt hat. Die meisten führenden WSSS-Methoden setzen eine komplizierte mehrstufige Trainingsstrategie ein, um Pseudolabels möglichst genau zu schätzen, leiden jedoch unter hoher Modellkomplexität. Im Gegensatz dazu existiert ein anderer Forschungsansatz, der ein einzelnes Netzwerk in einem einzigen Trainingszyklus mit Bild-Level-Labels trainiert. Eine solche einstufige Strategie erzielt jedoch oft schlechte Ergebnisse aufgrund des sich verstärkenden Effekts, der durch ungenaue Schätzungen der Pseudolabels verursacht wird. Um dieses Problem anzugehen, präsentiert dieser Artikel ein selbstüberwachtes niedrigrangiges Netzwerk (SLRNet) für einstufige WSSS- und SSSS-Aufgaben. Das SLRNet nutzt eine Kreuzansichts-Selbstüberwachung, bei der es gleichzeitig mehrere komplementäre, aufmerksamkeitsbasierte niedrigrangige (LR) Darstellungen aus verschiedenen Perspektiven eines Bildes vorhersagt, um präzise Pseudolabels zu lernen. Konkret formulieren wir die Lernung von LR-Darstellungen als ein kollektives Matrixfaktorisierungsproblem und optimieren es gemeinsam mit dem Netzwerk-Lernen in einer end-to-end-Weise. Die resultierende LR-Darstellung unterdrückt rauschhafte Informationen und erfasst stabile Semantik über verschiedene Ansichten hinweg, wodurch sie robust gegenüber Eingabeveränderungen wird und somit Überanpassung an Fehler der Selbstüberwachung reduziert. Das SLRNet bietet eine einheitliche einstufige Rahmenarchitektur für verschiedene label-effiziente semantische Segmentierungs-Szenarien: 1) WSSS mit Bild-Level-Labeln, 2) SSSS mit wenigen Pixel-Level-Labeln und 3) SSSS mit wenigen Pixel-Level-Labeln und vielen Bild-Level-Labeln. Umfassende Experimente auf den Datensätzen Pascal VOC 2012, COCO und L2ID zeigen, dass unser SLRNet sowohl state-of-the-art WSSS- als auch SSSS-Methoden unter verschiedenen Einstellungen übertrifft, was seine gute Verallgemeinerungsfähigkeit und Wirksamkeit belegt.