Diviser et Contraster : Adaptation de domaine sans source par apprentissage contrastif adaptatif

Nous étudions une tâche pratique d’adaptation de domaine, appelée adaptation de domaine sans source (source-free domain adaptation, SFUDA), dans laquelle un modèle pré-entraîné sur une source est adapté au domaine cible sans accès aux données de la source. Les méthodes existantes s’appuient principalement sur une étiquetage pseudo-supervisé auto-apprentissage afin d’atteindre une alignement global par classe [1], ou sur une extraction de structure locale visant à promouvoir la cohérence des caractéristiques au sein des voisinages [2]. Bien que des progrès remarquables aient été réalisés, ces deux approches présentent chacune des limites : l’approche « globale » est sensible aux étiquettes bruitées, tandis que l’approche « locale » souffre d’un biais provenant de la source. Dans ce travail, nous proposons Divide and Contrast (DaC), un nouveau paradigme pour la SFUDA, conçu pour tirer parti des avantages des deux approches tout en contournant leurs défauts. En se basant sur la confiance des prédictions du modèle source, DaC divise les données cibles en échantillons similaires à la source et en échantillons spécifiques au domaine cible. Chaque catégorie est traitée selon des objectifs spécifiques au sein d’un cadre d’apprentissage contrastif adaptatif. Plus précisément, les échantillons similaires à la source sont exploités pour apprendre un regroupement global par classe, grâce à leurs étiquettes relativement propres. Les données cibles plus bruitées, quant à elles, sont utilisées au niveau des instances pour capturer les structures locales intrinsèques. Nous introduisons également une alignement entre le domaine des échantillons similaires à la source et celui des échantillons spécifiques au cible via une perte basée sur un banc mémoire et la Discrepance de Moyenne Maximale (Maximum Mean Discrepancy, MMD), afin de réduire le déséquilibre de distribution. Des expériences étendues sur les jeux de données VisDA, Office-Home et le plus exigeant DomainNet confirment la supériorité de DaC par rapport aux approches les plus avancées actuelles. Le code source est disponible à l’adresse suivante : https://github.com/ZyeZhang/DaC.git.