Mehrfachquellen-Domänanpassung mit kooperativem Lernen für die semantische Segmentierung

Mehrfachquellen-unüberwachte Domänenanpassung (Multi-source Unsupervised Domain Adaptation, MSDA) zielt darauf ab, Modelle, die auf mehreren beschrifteten Quelldomänen trainiert wurden, auf eine unbeschriftete Zieldomäne anzupassen. In diesem Paper stellen wir einen neuartigen Rahmen für mehrfachquellenbasierte Domänenanpassung vor, der auf kooperativem Lernen für die semantische Segmentierung basiert. Zunächst wird eine einfache Bildübersetzungs-Methode eingeführt, um die Verteilung der Pixelwerte anzupassen und somit die Distanz zwischen den Quell- und der Zieldomäne teilweise zu verringern. Anschließend schlagen wir eine kooperative Lernmethode zur Domänenanpassung vor, die die essentiellen semantischen Informationen über mehrere Quelldomänen hinweg voll ausnutzt, ohne dass dabei je Daten aus der Zieldomäne gesehen werden müssen. Zusätzlich wird, analog zum Setup der unüberwachten Domänenanpassung, unbeschriftete Ziel-Daten genutzt, um die Leistung der Domänenanpassung weiter zu verbessern. Dies wird erreicht, indem die Ausgaben mehrerer Adaptationsmodelle online durch Pseudolabels beschränkt werden, die von einem ensemblesierten Modell generiert werden. Umfangreiche Experimente und Ablationsstudien werden auf den weit verbreiteten Benchmark-Datensätzen für Domänenanpassung in der semantischen Segmentierung durchgeführt. Unser vorgeschlagenes Verfahren erreicht eine mIoU von 59,0 % auf dem Validierungsset von Cityscapes, wobei das Modell auf den beschrifteten Datensätzen Synscapes und GTA5 sowie dem unbeschrifteten Trainingsset von Cityscapes trainiert wurde. Es übertrifft signifikant alle vorherigen state-of-the-art-Methoden für sowohl ein- als auch mehrfachquellenbasierte unüberwachte Domänenanpassung.