ProCST: Verbesserung der semantischen Segmentierung durch fortschreitenden zyklischen Stiltransfer

Die Verwendung synthetischer Daten zur Ausbildung von neuronalen Netzen, die eine gute Leistung auf realen Daten erzielen, ist eine wichtige Aufgabe, da sie das Bedürfnis nach kostspieligen Datenaufzeichnungen reduzieren kann. Dennoch besteht ein Domänenunterschied zwischen synthetischen und realen Daten. Die Verringerung dieses Unterschieds, auch bekannt als Domänenanpassung (domain adaptation), wurde in den letzten Jahren intensiv untersucht. Die direkte Anpassung zwischen der Quelldomäne (synthetisch) und der Zieldomäne (real) ist jedoch herausfordernd. In dieser Arbeit schlagen wir einen neuen zweistufigen Rahmen vor, um Techniken der Domänenanpassung bei Bildern zu verbessern. Im ersten Stadium trainieren wir schrittweise ein mehrskaliges neuronales Netzwerk zur Durchführung einer Bildübersetzung von der Quelldomäne in die Zieldomäne. Wir bezeichnen die neu transformierten Daten als "Quelle im Ziel" (Source in Target, SiT). Anschließend füttern wir die generierten SiT-Daten in jede Standard-UDA-Methode (Unsupervised Domain Adaptation). Diese neuen Daten weisen einen verminderten Domänenunterschied zur gewünschten Zieldomäne auf, was es der angewandten UDA-Methode erleichtert, den Unterschied weiter zu verringern. Wir betonen die Effektivität unserer Methode durch einen Vergleich mit anderen führenden UDA-Techniken und Bild-zu-Bild-Übersetzungsverfahren, wenn diese als SiT-Generatoren verwendet werden. Darüber hinaus demonstrieren wir die Verbesserung unseres Frameworks anhand dreier standesüblicher UDA-Methoden für semantische Segmentierung, nämlich HRDA, DAFormer und ProDA, bei zwei UDA-Aufgaben: GTA5 zu Cityscapes und Synthia zu Cityscapes.