Réflexion sûre pour l’adaptation de domaine basée sur les transformateurs

L’adaptation de domaine non supervisée (UDA) vise à exploiter un domaine source riche en étiquettes afin de résoudre des tâches sur un domaine cible lié mais non étiqueté. Il s’agit d’un problème difficile, particulièrement lorsque l’écart entre les domaines source et cible est important. Dans cet article, nous proposons une nouvelle solution nommée SSRT (Safe Self-Refinement pour l’adaptation de domaine basée sur les Transformers), qui apporte des améliorations sur deux aspects. Premièrement, inspirés par le succès des Transformers visuels dans diverses tâches de vision, nous intégrons à SSRT un modèle fondamental basé sur les Transformers. Nous constatons que l’association d’un Transformer visuel avec une adaptation adversarielle simple dépasse les meilleurs résultats rapportés obtenus avec des réseaux de neurones convolutifs (CNN) sur le défi exigeant de DomainNet, démontrant ainsi une forte capacité de représentation transférable. Deuxièmement, afin de réduire le risque d’effondrement du modèle et d’améliorer l’efficacité du transfert de connaissances entre des domaines présentant un grand écart, nous proposons une stratégie de réaffinement auto-sûr. Plus précisément, SSRT utilise les prédictions issues de données du domaine cible perturbées pour affiner le modèle. Étant donné que la capacité du modèle de Transformer visuel est importante et que les prédictions dans ces tâches complexes peuvent être bruitées, un mécanisme d’apprentissage sécurisé est conçu pour ajuster de manière adaptative la configuration d’apprentissage. Des évaluations étendues sont menées sur plusieurs benchmarks largement utilisés pour l’UDA, et SSRT obtient des performances constamment optimales, atteignant respectivement 85,43 % sur Office-Home, 88,76 % sur VisDA-2017 et 45,2 % sur DomainNet.