MIC: Maskierte Bildkonsistenz für kontextgestärkte Domänenanpassung

Im Bereich der unüberwachten Domänenanpassung (UDA) wird ein Modell, das auf Quelldaten (z.B. synthetisch) trainiert wurde, ohne Zugang zu Zielannotations auf Zieldaten (z.B. realweltlich) angepasst. Die meisten bisherigen UDA-Methoden haben Schwierigkeiten mit Klassen, die im Zielfeld eine ähnliche visuelle Erscheinung haben, da keine Ground-Truth-Daten zur Verfügung stehen, um die feinen Unterschiede in der Erscheinung zu lernen. Um dieses Problem zu lösen, schlagen wir ein Masked Image Consistency (MIC)-Modul vor, das UDA durch das Lernen von räumlichen Kontextbeziehungen des Zielfeldes als zusätzliche Hinweise für eine robuste visuelle Erkennung verbessert. MIC erzwingt die Konsistenz zwischen den Vorhersagen maskierter Zielbilder, bei denen zufällige Bereiche zurückgehalten werden, und Pseudo-Labels, die auf Basis des vollständigen Bildes durch einen exponentiellen gleitenden Mittelwert-Lehrer generiert werden. Um den Konsistenzverlust zu minimieren, muss das Netzwerk lernen, die Vorhersagen der maskierten Bereiche aus ihrem Kontext abzuleiten. Aufgrund seines einfachen und universellen Konzepts kann MIC in verschiedene UDA-Methoden für unterschiedliche visuelle Erkennungsaufgaben wie Bildklassifizierung, semantische Segmentierung und Objekterkennung integriert werden. MIC verbessert den Stand der Technik erheblich in verschiedenen Erkennungsaufgaben für die Anpassung von synthetisch zu realweltlich, Tag zu Nacht und klare Wetterbedingungen zu ungünstigen Wetterbedingungen. Zum Beispiel erreicht MIC eine bislang unbekannte UDA-Leistung von 75,9 mIoU und 92,8 % bei GTA-to-Cityscapes und VisDA-2017, was einer Steigerung um +2,1 und +3,0 Prozentpunkte gegenüber dem bisherigen Stand der Technik entspricht. Die Implementierung ist unter https://github.com/lhoyer/MIC verfügbar.