U-GAT-IT : Réseaux génératifs attentionnels non supervisés avec normalisation d'instance de couche adaptative pour la traduction d'image à image

Nous proposons une nouvelle méthode pour la traduction d'images non supervisée, qui intègre un nouveau module d'attention et une nouvelle fonction de normalisation apprenable de manière end-to-end. Le module d'attention guide notre modèle à se concentrer sur les régions plus importantes, distinguant entre les domaines source et cible grâce à la carte d'attention obtenue par le classifieur auxiliaire. Contrairement aux méthodes précédentes basées sur l'attention, qui ne peuvent pas gérer les changements géométriques entre les domaines, notre modèle peut traduire à la fois des images nécessitant des modifications globales et des images nécessitant de grands changements de forme. De plus, notre nouvelle fonction AdaLIN (Adaptive Layer-Instance Normalization) aide notre modèle guidé par l'attention à contrôler de manière flexible la quantité de changement dans la forme et la texture par des paramètres appris en fonction des jeux de données. Les résultats expérimentaux montrent la supériorité de la méthode proposée par rapport aux modèles existants de pointe avec une architecture réseau fixe et des hyperparamètres. Notre code source et nos jeux de données sont disponibles à l'adresse https://github.com/taki0112/UGATIT ou https://github.com/znxlwm/UGATIT-pytorch.