Apprentissage de représentations canoniques pour la génération d'images à partir de graphes de scène
La génération d'images réalistes de scènes visuelles complexes devient un défi lorsque l'on souhaite contrôler la structure des images générées. Les approches précédentes ont montré que des scènes avec peu d'entités pouvaient être contrôlées à l'aide de graphes de scènes, mais cette méthode rencontre des difficultés lorsque la complexité du graphe (le nombre d'objets et d'arêtes) augmente. Dans ce travail, nous montrons qu'une limitation des méthodes actuelles est leur incapacité à capturer l'équivalence sémantique dans les graphes. Nous présentons un modèle novateur qui résout ces problèmes en apprenant des représentations canoniques de graphes à partir des données, aboutissant ainsi à une amélioration de la génération d'images pour des scènes visuelles complexes. Notre modèle montre une performance empirique améliorée sur de grands graphes de scènes, une robustesse face au bruit dans le graphe de scène d'entrée, ainsi qu'une généralisation sur des graphes sémantiquement équivalents. Enfin, nous démontrons une performance améliorée du modèle sur trois différents benchmarks : Visual Genome, COCO et CLEVR.