HyperAIHyperAI
vor 2 Monaten

Glättung spielt eine Rolle: Momentum-Transformer für domänenadaptive semantische Segmentierung

Runfa Chen; Yu Rong; Shangmin Guo; Jiaqi Han; Fuchun Sun; Tingyang Xu; Wenbing Huang
Glättung spielt eine Rolle: Momentum-Transformer für domänenadaptive semantische Segmentierung
Abstract

Nach dem großen Erfolg von Varianten des Vision Transformers (ViTs) im Bereich der Computer Vision hat sich dieser Ansatz auch in der domänenadaptiven semantischen Segmentierung als hochpotent erwiesen. Leider führt die direkte Anwendung lokaler ViTs in der domänenadaptiven semantischen Segmentierung nicht zu den erwarteten Verbesserungen. Wir haben herausgefunden, dass das Problem lokaler ViTs auf die starken Hochfrequenzkomponenten zurückzuführen ist, die während sowohl der Pseudo-Label-Erstellung als auch der Merkmalsausrichtung für Zielbereiche entstehen. Diese Hochfrequenzkomponenten machen das Training von lokalen ViTs sehr unglatt und schaden ihrer Übertragbarkeit. In dieser Arbeit stellen wir einen Tiefpassfiltermechanismus, ein Momentum-Netzwerk, vor, um die Lerndynamik von Zielbereichs-Merkmalsvektoren und Pseudo-Labels zu glätten. Darüber hinaus schlagen wir eine dynamische Diskrepanzmaßnahme vor, um die Verteilungen in Quell- und Zielbereichen durch dynamische Gewichte zur Bewertung der Stichprobenwichtigkeit auszugleichen. Nachdem diese Probleme gelöst wurden, zeigen umfangreiche Experimente an Sim-to-Real-Benchmarks, dass das vorgeschlagene Verfahren den aktuellen Stand der Technik übertrifft. Unser Code ist unter https://github.com/alpc91/TransDA verfügbar.