Exploiter les traductions d’images par apprentissage auto-supervisé par ensemble pour l’adaptation de domaine non supervisée

Nous introduisons une stratégie d’adaptation de domaine non supervisée (UDA) qui combine de manière cohérente plusieurs translations d’images, l’apprentissage par ensemble (ensemble learning) et l’apprentissage auto-supervisé. Nous nous concentrons sur une des tâches classiques de l’UDA, dans laquelle un modèle de segmentation sémantique est entraîné sur des données synthétiques étiquetées ainsi que sur des données réelles non étiquetées, dans le but d’obtenir de bonnes performances sur ces dernières. Pour tirer parti des avantages offerts par l’utilisation de plusieurs translations d’images, nous proposons une approche basée sur l’apprentissage par ensemble, où trois classifieurs produisent leurs prédictions à partir de caractéristiques issues de différentes translations d’images, permettant à chaque classifieur d’apprendre de manière indépendante. Leurs sorties sont ensuite combinées à l’aide d’une régression logistique multinomiale creuse, appelée méta-apprenant (meta-learner). Ce couche de régression aide à réduire le biais lors de la génération des pseudo-étiquettes dans le cadre de l’apprentissage auto-supervisé, tout en améliorant la généralisation du modèle en tenant compte de la contribution de chaque classifieur. Nous évaluons notre méthode sur des benchmarks standards d’UDA, à savoir l’adaptation de GTA V et de Synthia vers Cityscapes, et obtenons des résultats de pointe en termes de métrique moyenne d’intersection sur union (mIoU). Des expériences d’ablation étendues sont rapportées afin de mettre en évidence les propriétés avantageuses de notre stratégie d’UDA proposée.