DualGAN : Apprentissage dual non supervisé pour la traduction d'images en images

Les Réseaux de Génération Adversariaux Conditionnels (GANs) pour la traduction d'images entre domaines ont connu de nombreux progrès récemment. Selon la complexité de la tâche, des milliers à des millions de paires d'images étiquetées sont nécessaires pour entraîner un GAN conditionnel. Cependant, l'étiquetage manuel est coûteux et parfois même irréaliste, et une grande quantité de données n'est pas toujours disponible. Inspirés par l'apprentissage dual en traduction automatique des langues naturelles, nous avons développé un nouveau mécanisme Dual-GAN, qui permet d'entraîner des traducteurs d'images à partir de deux ensembles d'images non étiquetées provenant de deux domaines. Dans notre architecture, le GAN principal apprend à traduire les images du domaine U vers celles du domaine V, tandis que le GAN dual apprend à inverser cette tâche. Le circuit fermé formé par les tâches principales et duales permet aux images de chaque domaine d'être traduites puis reconstituées. Ainsi, une fonction de perte prenant en compte l'erreur de reconstruction des images peut être utilisée pour entraîner les traducteurs. Les expériences menées sur plusieurs tâches de traduction d'images avec des données non étiquetées montrent une amélioration considérable des performances du Dual-GAN par rapport à un seul GAN. Pour certaines tâches, le Dual-GAN peut même obtenir des résultats comparables ou légèrement meilleurs que ceux d'un GAN conditionnel entraîné sur des données entièrement étiquetées.