Adaptation de domaine à plusieurs sources avec apprentissage collaboratif pour la segmentation sémantique

L’adaptation de domaine non supervisée multi-sources (MSDA) vise à adapter des modèles entraînés sur plusieurs domaines sources étiquetés à un domaine cible non étiqueté. Dans cet article, nous proposons un cadre novateur d’adaptation de domaine multi-sources basé sur l’apprentissage collaboratif pour la segmentation sémantique. Tout d’abord, une méthode simple de translation d’images est introduite afin d’aligner la distribution des valeurs de pixels, réduisant ainsi partiellement l’écart entre les domaines sources et le domaine cible. Ensuite, afin d’exploiter pleinement les informations sémantiques essentielles présentes dans les domaines sources, nous proposons une méthode d’apprentissage collaboratif pour l’adaptation de domaine sans avoir accès à aucune donnée du domaine cible. Par ailleurs, tout comme dans le cadre classique de l’adaptation de domaine non supervisée, nous exploitons les données non étiquetées du domaine cible pour améliorer davantage les performances de l’adaptation. Cela est réalisé en imposant, de manière en ligne, une contrainte supplémentaire sur les sorties de plusieurs modèles d’adaptation à l’aide d’étiquettes pseudo-labels générées dynamiquement par un modèle combiné (ensembled model). Des expériences étendues et des études d’ablation sont menées sur les jeux de données standards largement utilisés pour l’adaptation de domaine en segmentation sémantique. La méthode proposée atteint un mIoU de 59,0 % sur l’ensemble de validation de Cityscapes, en s’entraînant uniquement sur les jeux de données étiquetés Synscapes et GTA5 ainsi que sur l’ensemble d’entraînement non étiqueté de Cityscapes. Elle surpasse significativement toutes les méthodes précédentes de l’état de l’art, tant à source unique qu’à sources multiples, en adaptation de domaine non supervisée.