Diffusion de messages consciente du sens pour une adaptation de domaine non supervisée efficace

Le vision transformer a fait preuve d’un grand potentiel dans de nombreuses tâches visuelles. Toutefois, il souffre inévitablement d’une faible capacité de généralisation lorsqu’un décalage de distribution survient au moment de l’évaluation (c’est-à-dire en présence de données hors distribution). Pour atténuer ce problème, nous proposons une nouvelle méthode, appelée Semantic-aware Message Broadcasting (SAMB), qui permet une alignment de caractéristiques plus informative et plus flexible pour l’adaptation de domaine non supervisée (UDA). Plus précisément, nous étudions le module d’attention dans le vision transformer et constatons que l’espace d’alignement basé sur un seul jeton global de classe manque de souplesse : il traite toutes les parties de l’image de manière uniforme, tout en ignorant les richesses sémantiques propres à différentes régions. Dans cet article, nous visons à enrichir les caractéristiques d’alignement en permettant une diffusion adaptative de messages sensibles au sens. Plus particulièrement, nous introduisons un ensemble de jetons appris, appelés group tokens, qui agissent comme des nœuds pour agréger l’information globale provenant de tous les jetons d’image, tout en incitant chaque groupe de jetons à se concentrer de manière adaptative sur des régions sémantiques spécifiques lors de la diffusion des messages. Ainsi, notre mécanisme de diffusion de messages incite les groupes de jetons à apprendre des informations plus riches et plus diversifiées, favorisant ainsi un alignement de domaine plus efficace. En outre, nous étudions de manière systématique l’impact de l’alignement de caractéristiques basé sur une approche adversaire (ADA) et de l’auto-entraînement basé sur des pseudo-étiquettes (PST) dans le cadre de l’UDA. Nous constatons qu’une simple stratégie d’entraînement en deux étapes combinant ADA et PST peut encore améliorer significativement la capacité d’adaptation du vision transformer. Des expériences étendues sur les jeux de données DomainNet, OfficeHome et VisDA-2017 démontrent l’efficacité de notre approche pour l’UDA.