MLSL: Multi-Level Self-Supervised Learning für Domain Adaptation mit räumlich unabhängiger und semantisch konsistenter Beschriftung

Die meisten jüngsten Algorithmen für tiefe semantische Segmentierung leiden trotz Verwendung leistungsstarker hierarchischer Repräsentationsmodelle auf Basis von Faltungsneuronalen Netzen weiterhin unter großen Generalisierungsfehlern. Dies kann auf begrenzte Trainingsdaten und einen erheblichen Verteilungsunterschied zwischen Trainings- und Testdatensätzen zurückzuführen sein. In diesem Paper stellen wir ein mehrstufiges selbstüberwachtes Lernmodell für die Domänenanpassung bei semantischer Segmentierung vor. Ausgehend von der Idee, dass ein Objekt (sowie der Großteil der „Stuff“-Klassen im Kontext) unabhängig von seiner Position konsistent bezeichnet werden sollte, generieren wir räumlich unabhängige und semantisch konsistente (SISC) Pseudolabels, indem wir mehrere Sub-Bilder mit einem Basismodell segmentieren und eine Aggregationsstrategie entwerfen. Auf Bildebene berechnete schwache Pseudolabels (PWL) dienen der Domänenanpassung, indem sie die globale Kontextähnlichkeit zwischen Quell- und Zieldomäne auf latenten Raumebene erfassen. Dadurch wird der latente Raum unterstützt, repräsentative Merkmale zu lernen, selbst wenn nur wenige Pixel einer bestimmten Domänenklasse (z. B. kleine Objekte) im Vergleich zum restlichen Bild vorhanden sind. Unser mehrstufiges selbstüberwachtes Lernverfahren (MLSL) übertrifft bestehende State-of-the-Art-Methoden (sowohl selbstüberwachte als auch adversarielle Lernansätze). Insbesondere, bei gleichbleibenden Einstellungen und Anwendung von MLSL, erreichen wir eine Verbesserung der mIoU um 5,1 % bei der Anpassung von GTA-V zu Cityscapes und 4,3 % bei der Anpassung von SYNTHIA zu Cityscapes im Vergleich zur derzeit besten Methode.