Command Palette
Search for a command to run...
TransAdapter : Vision Transformer pour l'adaptation de domaine non supervisée centrée sur les caractéristiques
TransAdapter : Vision Transformer pour l'adaptation de domaine non supervisée centrée sur les caractéristiques
A. Enes Doruk Erhan Oztop Hasan F. Ates
Résumé
L’adaptation de domaine non supervisée (UDA) vise à exploiter des données étiquetées provenant d’un domaine source afin de résoudre des tâches dans un domaine cible non étiqueté, souvent entravée par des écarts de domaine importants. Les méthodes traditionnelles basées sur les réseaux de neurones convolutifs (CNN) peinent à capturer pleinement les relations complexes entre domaines, ce qui a conduit à un changement de paradigme vers des transformateurs visionnels tels que le Swin Transformer, particulièrement efficaces pour modéliser à la fois les dépendances locales et globales. Dans ce travail, nous proposons une nouvelle approche UDA fondée sur le Swin Transformer, intégrant trois modules clés. Un discriminateur de domaine basé sur les graphes améliore l’alignement entre domaines en capturant les corrélations inter-pixels grâce à des convolutions de graphes et une différenciation d’attention fondée sur l’entropie. Un module d’attention double adaptatif combine les mécanismes d’attention sur fenêtres et fenêtres décalées avec un rééquilibrage dynamique, permettant une alignement efficace entre caractéristiques locales et à longue portée. Enfin, une transformation croisée des caractéristiques modifie les blocs du Swin Transformer afin d’améliorer la généralisation entre domaines. Des évaluations étendues sur plusieurs benchmarks confirment les performances de pointe de notre méthode polyvalente, qui ne nécessite aucun module d’alignement spécifique à la tâche, établissant ainsi sa capacité d’adaptation à diverses applications.