Traduction basée sur les ondelettes : Passage non supervisé d'étiquettes à images

La Synthèse d'Images Sémantiques (SIS) est une sous-classe de la traduction d'image à image où un modèle sémantique est utilisé pour générer une image photoréaliste. Les réseaux de neurones adverses génératifs conditionnels (GANs) les plus avancés nécessitent une quantité massive de données appariées pour accomplir cette tâche, tandis que les cadres de traduction d'image à image non appariés génériques sous-performent en comparaison, car ils codent en couleur les modèles sémantiques et apprennent des correspondances basées sur l'apparence plutôt que sur le contenu sémantique. Partant du principe qu'une image générée de haute qualité devrait pouvoir être segmentée à nouveau en son modèle sémantique, nous proposons un nouveau paradigme non supervisé pour la SIS (USIS) qui utilise une perte de segmentation auto-supervisée et une discrimination basée sur les ondelettes de l'image entière. De plus, afin de correspondre à la distribution des hautes fréquences des images réelles, une nouvelle architecture de générateur dans le domaine des ondelettes est proposée. Nous testons notre méthodologie sur 3 jeux de données difficiles et démontrons sa capacité à combler l'écart de performance entre les modèles appariés et non appariés.