Semantische Segmentierung über Domänen hinweg durch dominanzinvariante interaktive Relationsübertragung

Die Nutzung photo-realistischer synthetischer Daten zur Schulung von semantischen Segmentierungsmodellen hat in den letzten Jahren zunehmend Aufmerksamkeit erfahren. Allerdings führt die Domänenunterschiedlichkeit zwischen synthetischen und realen Bildern zu einer erheblichen Leistungsverschlechterung, wenn ein mit synthetischen Bildern trainiertes Modell direkt in realen Anwendungsszenarien eingesetzt wird. In diesem Artikel stellen wir einen neuen Ansatz für Domänenanpassung vor, genannt Pivot Interaction Transfer (PIT). Unser Verfahren konzentriert sich hauptsächlich auf die Schaffung von Pivot-Informationen, also gemeinsam genutztem Wissen, das über verschiedene Domänen hinweg besteht, um die Anpassung semantischer Segmentierungsmodelle von synthetischen zu realen Domänen zu fördern. Konkret schätzen wir zunächst die bildweite Kategorieninformationen der Zielbilder ab, die dann zur Unterstützung der pixelweiten Übertragung für die semantische Segmentierung genutzt werden. Dies geschieht unter der Annahme, dass die interaktive Beziehung zwischen der bildweiten Kategorieninformation und der pixelweiten semantischen Information domäneninvariant ist. Dazu entwickeln wir eine neuartige mehrstufige Regionserweiterungsmechanik, die sowohl die bildweite als auch die pixelweise Information ausrichtet. Umfassende Experimente beim Übergang von GTAV und SYNTHIA zu Cityscapes zeigen eindeutig die Überlegenheit unseres Ansatzes.