Spatio-temporale pixelbasierte kontrastive Lernmethode zur quellefreien Domänenanpassung für die Videosemantische Segmentierung

Unsupervised Domain Adaptation (UDA) für semantische Segmentierung überträgt Wissen aus gelabelten Quelldaten auf einen unlabeled Zielbereich, indem sowohl Quell- als auch Ziel-Daten zugänglich sind. In realen Anwendungsszenarien sind jedoch der Zugriff auf Quelldaten oft eingeschränkt oder gar nicht möglich, was die Praktikabilität von UDA erheblich beeinträchtigt. Um diesem Problem zu begegnen, haben jüngere Arbeiten Lösungen im Rahmen des Source-Free Domain Adaptation (SFDA)-Settings untersucht, bei dem ein aus Quelldaten trainiertes Modell an den Zielbereich angepasst wird, ohne dass Quelldaten zugänglich sind. Dennoch nutzen bestehende SFDA-Ansätze lediglich informationsreiche Bildlevel-Informationen für die Anpassung, was ihre Leistung in Video-Anwendungen suboptimal macht. In dieser Arbeit untersuchen wir SFDA für Video-Semantische Segmentierung (VSS), wobei zeitliche Informationen genutzt werden, um die Anpassung an Videos zu verbessern. Konkret stellen wir eine neuartige Methode namens Spatio-Temporal Pixel-Level (STPL) contrastive Learning vor, die das volle Potenzial von räumlich-zeitlichen Informationen ausschöpft, um die Abwesenheit von Quelldaten effektiver zu bewältigen. STPL lernt explizit semantische Korrelationen zwischen Pixeln im räumlich-zeitlichen Raum, wodurch eine starke selbstüberwachte Signalisierung für die Anpassung an den unlabeled Zielbereich bereitgestellt wird. Ausführliche Experimente zeigen, dass STPL gegenüber aktuellen UDA- und SFDA-Ansätzen eine state-of-the-art-Leistung auf VSS-Benchmarks erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/shaoyuanlo/STPL