Reconstruction pilotée par étiquette pour l’adaptation de domaine en segmentation sémantique

L’adaptation de domaine non supervisée permet de réduire la nécessité d’annotations pixel-par-pixel dans la segmentation sémantique. L’une des stratégies les plus courantes consiste à transférer les images du domaine source vers le domaine cible, puis à aligner leurs distributions marginales dans l’espace des caractéristiques à l’aide d’un apprentissage adversaire. Toutefois, ce transfert du domaine source vers le domaine cible amplifie le biais présent dans les images transformées et introduit des calculs supplémentaires, en raison de la taille dominante des données du domaine source. En outre, l’alignement global des caractéristiques ne garantit pas la cohérence de la distribution conjointe entre les deux domaines. Dans cet article, nous proposons un cadre innovant visant à atténuer le biais de transformation d’image et à aligner les caractéristiques entre domaines pour des catégories identiques. Cela est réalisé grâce à deux mécanismes : 1) un transfert d’image du domaine cible vers le domaine source, et 2) une reconstruction à la fois des images du domaine source et du domaine cible à partir de leurs étiquettes prédites. Des expériences étendues sur la tâche d’adaptation de scènes urbaines synthétiques vers réelles démontrent que notre cadre s’impose favorablement par rapport aux méthodes de pointe existantes.