Differenzierte Behandlung von Dingen und Gegenständen: Eine einfache unsupervisierte Domänenanpassungsmethode für die semantische Segmentierung

In dieser Arbeit betrachten wir das Problem der unsupervisierten Domänenanpassung für die semantische Segmentierung, indem wir den Domänenverschiebungseffekt zwischen der Quelldomäne (synthetische Daten) und der Zieldomäne (reale Daten) verringern. Moderne Ansätze zeigen, dass eine semantische Ausrichtung hilfreich ist, um die Domänenverschiebung zu bewältigen. Ausgehend von der Beobachtung, dass „Stuff“-Kategorien (z. B. Himmel, Straße) in Bildern unterschiedlicher Domänen typischerweise ähnliche Erscheinungsbilder aufweisen, während „Things“ (d. h. Objektinstanzen) deutlich größere Unterschiede aufweisen, schlagen wir vor, die semantische Ausrichtung durch unterschiedliche Strategien für „Stuff“-Regionen und „Things“ zu verbessern: 1) Für die „Stuff“-Kategorien generieren wir für jede Klasse eine Merkmalsrepräsentation und führen die Ausrichtung von der Ziel- zur Quelldomäne durch; 2) Für die „Things“-Kategorien generieren wir für jede einzelne Instanz eine Merkmalsrepräsentation und ermutigen die Instanz in der Zieldomäne, sich mit der ähnlichsten Instanz in der Quelldomäne auszurichten. Auf diese Weise werden auch individuelle Unterschiede innerhalb der „Things“-Kategorien berücksichtigt, um eine Überanpassung (Over-alignment) zu verringern. Zusätzlich zu unserem vorgeschlagenen Ansatz beleuchten wir die Ursache dafür, warum die derzeit verwendeten adversarialen Verlustfunktionen oft instabil sind, wenn sie die Verteilungsdisparität minimieren sollen, und zeigen, dass unsere Methode dieses Problem durch die Minimierung der ähnlichsten „Stuff“- und Instanzmerkmale zwischen Quell- und Zieldomäne lindern kann. Wir führen umfangreiche Experimente in zwei Aufgaben der unsupervisierten Domänenanpassung durch, nämlich GTA5 zu Cityscapes und SYNTHIA zu Cityscapes, und erreichen dabei eine neue state-of-the-art Genauigkeit bei der Segmentierung.