HyperAIHyperAI
il y a 2 mois

Lissage des Matières : Momentum Transformer pour la Segmentation Sémantique Adaptative au Domaine

Runfa Chen; Yu Rong; Shangmin Guo; Jiaqi Han; Fuchun Sun; Tingyang Xu; Wenbing Huang
Lissage des Matières : Momentum Transformer pour la Segmentation Sémantique Adaptative au Domaine
Résumé

Après le grand succès des variantes de Vision Transformer (ViTs) en vision par ordinateur, elles ont également démontré un potentiel considérable dans le domaine de la segmentation sémantique adaptative. Malheureusement, l'application directe de ViTs locaux dans la segmentation sémantique adaptative n'apporte pas les améliorations attendues. Nous avons constaté que le problème majeur des ViTs locaux est dû aux composantes à haute fréquence sévères générées lors de la construction des pseudo-étiquettes et de l'alignement des caractéristiques pour les domaines cibles. Ces composantes à haute fréquence rendent l'entraînement des ViTs locaux très instable et nuisent à leur transférabilité. Dans cet article, nous introduisons un mécanisme de filtrage passe-bas, appelé réseau à momentum, pour lisser la dynamique d'apprentissage des caractéristiques et des pseudo-étiquettes du domaine cible. De plus, nous proposons une mesure dynamique de discordance pour aligner les distributions entre les domaines source et cible grâce à des poids dynamiques évaluant l'importance des échantillons. Après avoir résolu ces problèmes, de nombreuses expériences sur des benchmarks sim2real montrent que notre méthode surpassent les méthodes de pointe actuelles. Nos codes sont disponibles sur https://github.com/alpc91/TransDA