Traduction d'images diverses par représentations dissociées

La traduction d'image à image vise à apprendre la correspondance entre deux domaines visuels. Deux défis majeurs se posent pour de nombreuses applications : 1) le manque de paires d'entraînement alignées et 2) l'existence de plusieurs sorties possibles à partir d'une seule image d'entrée. Dans ce travail, nous présentons une approche basée sur une représentation dissociée pour produire des sorties variées sans images d'entraînement appariées. Pour atteindre cette diversité, nous proposons d'insérer les images dans deux espaces : un espace de contenu invariant par domaine capturant les informations partagées entre les domaines et un espace d'attributs spécifique au domaine. Notre modèle utilise les caractéristiques de contenu encodées extraites d'une image donnée et les vecteurs d'attributs échantillonnés dans l'espace d'attributs pour générer des sorties variées lors des tests. Pour traiter les données d'entraînement non appariées, nous introduisons une nouvelle perte de cohérence croisée basée sur des représentations dissociées. Les résultats qualitatifs montrent que notre modèle peut générer des images variées et réalistes sur une large gamme de tâches sans données d'entraînement appariées. Pour les comparaisons quantitatives, nous mesurons la réalisme par une étude utilisateur et la diversité par une métrique de distance perceptuelle. Nous appliquons le modèle proposé à l'adaptation de domaine et montrons des performances compétitives lorsque nous le comparons aux méthodes de pointe sur les ensembles de données MNIST-M et LineMod.