Adaptation de domaine non supervisée pour la segmentation sémantique par auto-entraînement équilibré par classe

Les récents réseaux profonds ont atteint des performances de pointe sur une variété de tâches de segmentation sémantique. Malgré ces progrès, ces modèles rencontrent fréquemment des difficultés dans des tâches réelles « sauvages », où existe une grande différence entre les données d'entraînement/origine étiquetées et les données de test/cibles non vues. En particulier, cette différence est souvent qualifiée de « fossé de domaine » (domain gap), pouvant entraîner une dégradation significative des performances, difficilement corrigeable par une simple augmentation de la puissance de représentation du modèle. L’adaptation de domaine non supervisée (Unsupervised Domain Adaptation, UDA) vise à surmonter ce problème sans nécessiter d’étiquettes sur le domaine cible. Dans cet article, nous proposons un nouveau cadre UDA fondé sur une procédure itérative d’apprentissage par auto-étiquetage (self-training, ST), dans lequel le problème est formulé comme une minimisation de perte sur des variables latentes, et peut être résolu par une itération alternée de génération d’étiquettes pseudo sur les données cibles et de re-entraînement du modèle à l’aide de ces étiquettes. Par ailleurs, nous introduisons un cadre novateur d’apprentissage par auto-étiquetage équilibré par classe (class-balanced self-training, CBST), afin d’éviter la domination progressive des grandes classes lors de la génération d’étiquettes pseudo, et nous intégrons des prioris spatiaux pour affiner les étiquettes générées. Des expériences approfondies montrent que les méthodes proposées atteignent des performances de segmentation sémantique de pointe dans plusieurs cadres UDA majeurs.