Génération d'images à partir de layouts contextuels avec une amélioration de l'apparence des objets

Un modèle de génération de layout à image (L2I) vise à produire une image complexe contenant plusieurs objets (things) sur un fond naturel (stuff), conditionné par un layout donné. S'appuyant sur les récentes avancées dans les réseaux adversariaux génératifs (GANs), les modèles L2I existants ont réalisé des progrès considérables. Cependant, une inspection attentive de leurs images générées révèle deux limitations majeures : (1) les relations entre objets et entre objets et fond sont souvent rompues, et (2) l'apparence de chaque objet est généralement déformée, manquant des caractéristiques clés associées à la classe d'objet. Nous soutenons que ces limitations sont dues au manque d'encodage de caractéristiques contextuelles pour les objets et le fond dans leurs générateurs, ainsi qu'à une représentation d'apparence insensible à la localisation dans leurs discriminateurs. Pour remédier à ces limitations, deux nouveaux modules sont proposés dans cette étude. Premièrement, un module de transformation de caractéristiques contextuelles est introduit dans le générateur afin d'assurer que l'encodage des caractéristiques généré pour un objet ou un fond soit conscient des autres objets/fonds coexistant dans la scène. Deuxièmement, plutôt que d'alimenter le discriminateur avec des caractéristiques d'image insensibles à la localisation, nous utilisons la matrice Gram calculée à partir des cartes de caractéristiques des images d'objets générés pour préserver l'information sensible à la localisation, ce qui améliore considérablement l'apparence des objets. Des expériences approfondies montrent que la méthode proposée atteint des performances de pointe sur les benchmarks COCO-Thing-Stuff et Visual Genome.