EUDA : Une adaptation de domaine non supervisée efficace basée sur un transformateur de vision auto-supervisé

L’adaptation de domaine non supervisée (UDA) vise à atténuer le problème du décalage de domaine, où la distribution des données d’entraînement (domaine source) diffère de celle des données de test (domaine cible). De nombreux modèles ont été développés pour relever ce défi, et récemment, les transformateurs visuels (ViTs) ont montré des résultats prometteurs. Toutefois, la complexité élevée et le grand nombre de paramètres entraînables des ViTs limitent leur déploiement dans des applications pratiques. Cela souligne la nécessité d’un modèle efficace capable non seulement de réduire le nombre de paramètres entraînables, mais aussi d’offrir une complexité ajustable selon les besoins spécifiques, tout en garantissant des performances comparables. Afin d’atteindre cet objectif, nous introduisons dans cet article un cadre d’adaptation de domaine non supervisée efficace (EUDA). EUDA utilise DINOv2, un ViT auto-supervisé, comme extracteur de caractéristiques, suivi d’un goulot d’étranglement simplifié composé de couches entièrement connectées afin de raffiner les caractéristiques pour une meilleure adaptation de domaine. En outre, EUDA met en œuvre une perte d’alignement de domaine synergique (SDAL), qui combine les pertes d’entropie croisée (CE) et de différence de moyenne maximale (MMD), afin d’équilibrer l’adaptation en minimisant les erreurs de classification dans le domaine source tout en alignant les distributions des domaines source et cible. Les résultats expérimentaux montrent l’efficacité d’EUDA, qui parvient à produire des résultats comparables à ceux des méthodes de pointe en adaptation de domaine, tout en réduisant considérablement le nombre de paramètres entraînables — entre 42 % et 99,7 % de moins. Cela démontre la capacité à entraîner le modèle dans un environnement à ressources limitées. Le code du modèle est disponible à l’adresse suivante : https://github.com/A-Abedi/EUDA.