Vers la traduction image-à-image multimodale

De nombreux problèmes de traduction d'image à image sont ambigus, car une seule image d'entrée peut correspondre à plusieurs sorties possibles. Dans ce travail, nous visons à modéliser une \emph{distribution} de sorties possibles dans un cadre de modélisation générative conditionnelle. L'ambiguïté de la correspondance est encapsulée dans un vecteur latent de faible dimension, qui peut être échantillonné aléatoirement au moment du test. Un générateur apprend à mapper l'entrée donnée, combinée avec ce code latent, vers la sortie. Nous encourageons explicitement la connexion entre la sortie et le code latent à être inversible. Cela aide à prévenir une correspondance de beaucoup à un (many-to-one) du code latent vers la sortie pendant l'entraînement, également connue sous le nom du problème de collapse modalité, et produit des résultats plus diversifiés. Nous explorons plusieurs variantes de cette approche en utilisant différents objectifs d'entraînement, architectures de réseau et méthodes d'injection du code latent. Notre méthode proposée favorise la cohérence bijective entre le codage latent et les modes de sortie. Nous présentons une comparaison systématique de notre méthode et d'autres variantes en termes de réalisme perceptuel et de diversité.