DAFormer: Verbesserung von Netzwerkarchitekturen und Trainingsstrategien für domainspezifische semantische Segmentierung

Da die Erstellung pixelgenauer Annotationen realer Bilder für die semantische Segmentierung ein kostenintensiver Prozess ist, kann ein Modell stattdessen mit leichter zugänglichen synthetischen Daten trainiert und an reale Bilder angepasst werden, ohne dass diese annotiert werden müssen. Dieser Prozess wird im Rahmen des unsupervised domain adaptation (UDA) untersucht. Obwohl eine Vielzahl von Methoden neue Anpassungsstrategien vorschlagen, basieren sie überwiegend auf veralteten Netzwerkarchitekturen. Da der Einfluss neuerer Netzwerkarchitekturen bisher systematisch nicht untersucht wurde, führen wir zunächst eine Benchmark verschiedener Architekturen für UDA durch und zeigen erstmals das Potenzial von Transformers für die UDA-Segmentierung auf. Auf Basis dieser Erkenntnisse stellen wir eine neue UDA-Methode, DAFormer, vor. Die Architektur von DAFormer besteht aus einem Transformer-Encoder und einem mehrstufigen, kontextbewussten Feature-Fusions-Decoder. Sie wird durch drei einfache, aber entscheidende Trainingsstrategien stabilisiert und vor einer Überanpassung an den Quellbereich geschützt: (1) Die seltene-Klasse-Probenahme im Quellbereich verbessert die Qualität der Pseudolabels, indem sie die Bestätigungsverzerrung des Selbsttrainings gegenüber häufigen Klassen verringert; (2) die Thing-Class ImageNet Feature Distance und (3) ein Lernrate-Warmup fördern die Merkmalsübertragung aus der ImageNet-Vortrainierung. DAFormer stellt einen bedeutenden Fortschritt im Bereich UDA dar: Er erreicht eine Verbesserung des Standes der Technik um 10,8 mIoU bei GTA-to-Cityscapes und 5,4 mIoU bei Synthia-to-Cityscapes und ermöglicht zudem eine effektive Lernleistung auch für anspruchsvolle Klassen wie Zug, Bus und Lkw. Die Implementierung ist unter https://github.com/lhoyer/DAFormer verfügbar.