Patch-Mix Transformer pour l’Adaptation de Domaine Non Supervisée : Une Perspective Jeu

Des efforts récents ont été déployés pour exploiter le modèle vision transformer (ViT) dans le cadre de la tâche exigeante d’adaptation de domaine non supervisée (UDA). Ces approches utilisent généralement l’attention croisée du ViT pour réaliser une alignement direct entre les domaines. Toutefois, comme la performance de l’attention croisée dépend fortement de la qualité des étiquettes pseudo-marquées pour les échantillons cibles, son efficacité diminue considérablement lorsque l’écart entre les domaines devient important. Nous résolvons ce problème sous l’angle de la théorie des jeux, en proposant un modèle baptisé PMTrans, qui relie les domaines source et cible à travers un domaine intermédiaire. Plus précisément, nous introduisons un nouveau module basé sur le ViT, nommé PatchMix, qui construit efficacement ce domaine intermédiaire, c’est-à-dire une distribution de probabilité, en apprenant à échantillonner des patches provenant des deux domaines selon des modèles fondés sur la théorie des jeux. Ce mécanisme permet d’optimiser le mélange des patches provenant des domaines source et cible afin de maximiser l’entropie croisée (CE), tout en exploitant deux pertes de type mixup semi-supervisées dans les espaces des caractéristiques et des étiquettes afin de minimiser cette entropie. Ainsi, nous interprétons le processus d’UDA comme un jeu min-max d’entropie croisée impliquant trois joueurs : l’extraitteur de caractéristiques, le classificateur et PatchMix, dont l’objectif est de trouver un équilibre de Nash. En outre, nous utilisons les cartes d’attention du ViT pour réattribuer un poids aux étiquettes de chaque patch en fonction de leur importance, ce qui permet d’obtenir des représentations de caractéristiques plus discriminantes par rapport au domaine. Nous avons mené des expériences approfondies sur quatre jeux de données standard, et les résultats montrent que PMTrans dépasse significativement les méthodes de l’état de l’art basées sur le ViT et les réseaux de neurones convolutifs (CNN), avec des gains respectifs de +3,6 % sur Office-Home, +1,4 % sur Office-31 et +17,7 % sur DomainNet.