Unüberwachte Szenenanpassung mit Speicher-Regularisierung in vivo

Wir betrachten das Problem der unsupervisierten Szenenanpassung, bei dem aus gelabelten Quelldaten und unlabeled Ziel-Daten gelernt wird. Bestehende Methoden konzentrieren sich darauf, den inter-domänalen Abstand zwischen Quell- und Ziel-Domäne zu minimieren. Die intra-domänale Wissensrepräsentation und die inhärente Unsicherheit, die das Netzwerk lernt, werden hingegen bisher ungenügend untersucht. In diesem Artikel schlagen wir eine orthogonale Methode vor, die sogenannte Memory Regularization in vivo, um intra-domänale Kenntnisse auszunutzen und das Modelltraining zu regularisieren. Konkret betrachten wir den Segmentierungsmodell selbst als Speichermodule und minimieren die Diskrepanz zwischen zwei Klassifikatoren – dem primären und dem Hilfsklassifikator –, um die Vorhersageinkonsistenz zu verringern. Ohne zusätzliche Parameter ist die vorgeschlagene Methode komplementär zu den meisten bestehenden Anpassungsverfahren und kann generell die Leistung dieser Methoden verbessern. Obwohl die Methode einfach gehalten ist, bestätigen wir ihre Wirksamkeit an zwei synthetisch-zu-realen Benchmarks: GTA5 → Cityscapes und SYNTHIA → Cityscapes, wobei jeweils eine Verbesserung um +11,1 % und +11,3 % bezüglich des mIoU gegenüber dem Basismodell erzielt wird. Darüber hinaus beobachten wir eine ähnliche Verbesserung um +12,0 % mIoU auf dem cross-city-Benchmark: Cityscapes → Oxford RobotCar.