Apprentissage d’un CNN sur ViT : un modèle hybride pour des frontières explicites par classe dans le cadre de l’adaptation de domaine

La plupart des méthodes d’adaptation de domaine (DA) reposent soit sur des réseaux de neurones convolutifs (CNN), soit sur des vision transformers (ViT). Ces approches alignent les différences de distribution entre les domaines via des encodeurs, sans tenir compte des caractéristiques propres de chaque modèle. Par exemple, ViT excelle en précision grâce à sa capacité supérieure à capturer des représentations globales, tandis que les CNN présentent un avantage dans la modélisation des représentations locales. Cette observation nous a conduit à concevoir une méthode hybride visant à exploiter pleinement les forces des deux architectures, appelée Explicitly Class-specific Boundaries (ECB). ECB apprend un CNN à partir d’un ViT afin de combiner leurs avantages distincts. Plus précisément, nous exploitons les propriétés du ViT pour déterminer explicitement des frontières de décision spécifiques aux classes, en maximisant la disparité entre les sorties des deux classificateurs afin de détecter les échantillons cibles éloignés du support source. En revanche, l’encodeur CNN regroupe les caractéristiques cibles selon les frontières de décision spécifiques aux classes prédéfinies, en minimisant la disparité entre les probabilités produites par les deux classificateurs. Enfin, ViT et CNN échangent mutuellement des connaissances afin d’améliorer la qualité des étiquettes pseudo-étiquetées et de réduire les écarts de connaissance entre les deux modèles. Par rapport aux méthodes classiques d’adaptation de domaine, notre approche ECB obtient des performances supérieures, ce qui atteste de son efficacité dans ce cadre hybride. Le site du projet est disponible à l’adresse suivante : https://dotrannhattuong.github.io/ECB/website.