Génération d'images à partir de la mise en page

Malgré des progrès significatifs récents dans les modèles génératifs, la génération contrôlée d'images représentant plusieurs objets et des configurations complexes reste un problème difficile. Parmi les défis majeurs figurent la diversité d'apparence qu'un objet donné peut posséder et, par conséquent, l'ensemble exponentiel d'images cohérentes avec une configuration spécifiée. Pour relever ces défis, nous proposons une nouvelle approche de génération d'images basée sur la configuration ; nous l'appelons Layout2Im. Étant donné une disposition spatiale grossière (boîtes englobantes + catégories d'objets), notre modèle est capable de générer un ensemble d'images réalistes qui contiennent les objets corrects aux emplacements souhaités. La représentation de chaque objet est dissociée en une partie spécifiée/certaine (catégorie) et une partie non spécifiée/incertaine (apparence). La catégorie est encodée à l'aide d'un plongement lexical (word embedding) et l'apparence est réduite à un vecteur de faible dimension tiré d'une distribution normale. Les représentations individuelles des objets sont combinées en utilisant un LSTM convolutif pour obtenir une codification de la configuration complète, puis décodées en une image. Plusieurs termes de perte sont introduits pour favoriser une génération précise et variée. Le modèle Layout2Im proposé surpasse considérablement l'état de l'art précédent, améliorant le meilleur score Inception rapporté de 24,66 % sur le jeu de données très difficile COCO-Stuff et de 28,57 % sur le jeu de données Visual Genome. Des expériences étendues démontrent également la capacité de notre méthode à générer des images complexes et variées avec plusieurs objets.