il y a 2 mois

Génération d'images centrées sur les objets à partir de dispositions

Sylvain, Tristan ; Zhang, Pengchuan ; Bengio, Yoshua ; Hjelm, R Devon ; Sharma, Shikhar

Résumé

Malgré les résultats impressionnants récents en matière de génération d'images d'un seul objet ou d'un seul domaine, la génération de scènes complexes avec plusieurs objets reste un défi. Dans cet article, nous partons du principe qu'un modèle doit être capable de comprendre les objets individuels et leurs relations entre eux pour générer efficacement des scènes complexes. Notre méthode de génération d'images à partir de dispositions, que nous appelons Object-Centric Generative Adversarial Network (OC-GAN), repose sur un nouveau module de similarité de graphes de scène (Scene-Graph Similarity Module, SGSM). Le SGSM apprend des représentations des relations spatiales entre les objets dans la scène, ce qui améliore la fidélité au layout de notre modèle. Nous proposons également des modifications du mécanisme de conditionnement du générateur qui renforcent sa prise en compte des instances d'objets. Outre l'amélioration de la qualité des images, nos contributions atténuent deux modes d'échec observés dans les approches précédentes : (1) la génération d'objets parasites sans boîtes englobantes correspondantes dans le layout, et (2) des boîtes englobantes superposées dans le layout entraînant des objets fusionnés dans les images. Une évaluation quantitative extensive et des études abrégeantes démontrent l'impact de nos contributions, notre modèle surpassant les approches précédentes de pointe sur les jeux de données COCO-Stuff et Visual Genome. Enfin, nous abordons une limitation importante des métriques d'évaluation utilisées dans les travaux précédents en introduisant SceneFID -- une adaptation centrée sur l'objet de la métrique Fréchet Inception Distance (FID), mieux adaptée aux images multi-objets.