Synthèse d'images à partir de disposition et de style reconfigurables
Malgré les progrès remarquables récents dans la synthèse d'images inconditionnelle et conditionnelle, il reste un problème de longue date d'apprendre des modèles génératifs capables de produire des images réalistes et nettes à partir d'une disposition spatiale reconfigurable (c'est-à-dire, des boîtes englobantes + des étiquettes de classe dans une grille d'images) et d'un style (c'est-à-dire, des variations structurelles et d'apparence encodées par des vecteurs latents), en particulier à haute résolution. Par reconfigurable, on entend qu'un modèle peut préserver le mappage intrinsèque un-à-plusieurs d'une disposition donnée à plusieurs images plausibles avec différents styles, et est adaptable aux perturbations de la disposition et du code latent de style. Dans cet article, nous présentons une architecture basée sur la disposition et le style pour les réseaux adversariaux génératifs (dénommés LostGANs) qui peut être entraînée de bout en bout pour générer des images à partir d'une disposition et d'un style reconfigurables. Inspirés par le StyleGAN original, les LostGAN proposés comprennent deux nouveaux composants : (i) l'apprentissage de cartes de masques fines de manière faiblement supervisée pour combler l'écart entre les dispositions et les images, et (ii) l'apprentissage de la normalisation des caractéristiques consciente de la disposition pour chaque instance d'objet (ISLA-Norm) dans le générateur afin de réaliser la génération de styles multi-objets. Dans les expériences, la méthode proposée a été testée sur le jeu de données COCO-Stuff et le jeu de données Visual Genome avec des performances au niveau de l'état de l'art obtenues. Le code source et les modèles pré-entraînés sont disponibles à l'adresse \url{https://github.com/iVMCL/LostGANs}.