Synthèse d'images à haute résolution et manipulation sémantique avec des GANs conditionnels

Nous présentons une nouvelle méthode pour synthétiser des images photo-réalistes à haute résolution à partir de cartes d'étiquettes sémantiques en utilisant des réseaux de neurones génératifs adverses conditionnels (conditional GANs). Bien que les conditional GANs aient permis une variété d'applications, leurs résultats sont souvent limités à une faible résolution et restent éloignés du réalisme. Dans ce travail, nous générons des résultats visuellement attrayants de 2048x1024 pixels grâce à une nouvelle perte adversaire, ainsi qu'à de nouvelles architectures multi-échelles pour le générateur et le discriminateur. De plus, nous étendons notre cadre à la manipulation visuelle interactive en ajoutant deux fonctionnalités supplémentaires. Premièrement, nous intégrons des informations de segmentation d'instances d'objets, ce qui permet des manipulations d'objets telles que leur suppression/ajout et le changement de catégorie d'objet. Deuxièmement, nous proposons une méthode pour générer des résultats diversifiés à partir de la même entrée, permettant aux utilisateurs d'éditer l'apparence des objets de manière interactive. Des études d'opinion humaine montrent que notre méthode surpasse significativement les méthodes existantes, améliorant tant la qualité que la résolution de la synthèse et de l'édition d'images profondes.