Génération d'images à partir de graphes de scène

Pour véritablement comprendre le monde visuel, nos modèles devraient non seulement être capables de reconnaître des images, mais aussi de les générer. Dans ce but, il y a eu des progrès récents passionnants concernant la génération d'images à partir de descriptions en langage naturel. Ces méthodes donnent des résultats étonnants dans des domaines limités tels que les descriptions d'oiseaux ou de fleurs, mais peinent à reproduire fidèlement des phrases complexes impliquant de nombreux objets et relations. Pour surmonter cette limitation, nous proposons une méthode permettant de générer des images à partir de graphes de scènes, facilitant ainsi un raisonnement explicite sur les objets et leurs relations. Notre modèle utilise la convolution de graphe pour traiter les graphes d'entrée, calcule un agencement de scène en prédiction des boîtes englobantes et des masques de segmentation pour les objets, puis convertit cet agencement en image grâce à un réseau de raffinement en cascade. Le réseau est entraîné de manière antagoniste contre un couple de discriminateurs pour garantir des sorties réalistes. Nous validons notre approche sur Visual Genome et COCO-Stuff, où des résultats qualitatifs, des analyses par suppression (ablations) et des études utilisateurs démontrent la capacité de notre méthode à générer des images complexes comportant plusieurs objets.