HRDA: Kontextsensible hochaufgelöste domänenadaptive semantische Segmentierung

Die unsupervisierte Domänenanpassung (UDA) zielt darauf ab, ein Modell, das auf der Quelldomäne trainiert wurde (z. B. synthetische Daten), auf die Zieldomäne (z. B. reale Welt-Daten) anzupassen, ohne weitere Annotationen in der Zieldomäne zu benötigen. Diese Arbeit konzentriert sich auf UDA für semantische Segmentierung, da reale pixelweise Annotationen besonders teuer zu erlangen sind. Da UDA-Methoden für semantische Segmentierung in der Regel GPU-Speicheraufwändig sind, arbeiten die meisten bisherigen Methoden nur mit verkleinerten Bildern. Wir hinterfragen dieses Design, da Vorhersagen niedriger Auflösung oft feine Details nicht bewahren können. Die Alternative des Trainings mit zufälligen Ausschnitten hochaufgelöster Bilder mildert dieses Problem, aber sie schlägt fehl bei der Erfassung von langreichweitigen, domänenrobusten Kontextinformationen. Deshalb schlagen wir HRDA vor, einen mehrfach-auflösungs-basierten Trainingsansatz für UDA, der die Stärken kleiner hochaufgelöster Ausschnitte zur Bewahrung feiner Segmentierungsdetails und großer niedrigaufgelöster Ausschnitte zur Erfassung langreichweitiger Kontextabhängigkeiten mit einer gelernten Skalen-Aufmerksamkeit kombiniert und dabei einen überschaubaren GPU-Speicherbedarf beibehält. HRDA ermöglicht es, kleine Objekte anzupassen und feine Segmentierungsdetails zu bewahren. Es verbessert den Stand der Technik signifikant um 5,5 mIoU für GTA-to-Cityscapes und 4,9 mIoU für Synthia-to-Cityscapes, was in unerreichte Werte von 73,8 und 65,8 mIoU resultiert. Die Implementierung ist unter https://github.com/lhoyer/HRDA verfügbar.