HyperAIHyperAI
il y a 17 jours

Génération de scènes à bottleneck sémantique

Samaneh Azadi, Michael Tschannen, Eric Tzeng, Sylvain Gelly, Trevor Darrell, Mario Lucic
Génération de scènes à bottleneck sémantique
Résumé

En combinant les capacités de génération haute fidélité des méthodes de synthèse d’images conditionnelles par étiquettes avec la flexibilité des modèles génératifs non conditionnels, nous proposons un modèle GAN à goulot d’étranglement sémantique pour la synthèse non conditionnelle de scènes complexes. Nous supposons que des étiquettes de segmentation par pixel sont disponibles durant l’entraînement, et nous les utilisons pour apprendre la structure de la scène. Lors de l’inférence, notre modèle synthétise d’abord une disposition de segmentation réaliste à partir de zéro, puis génère une scène réaliste conditionnellement à cette disposition. Pour la première étape, nous utilisons un réseau progressif de génération de segmentation non conditionnel, capable de capturer la distribution des dispositions sémantiques réalistes. Pour la seconde, nous employons un réseau de synthèse image à partir de segmentation conditionnel, qui modélise la distribution des images photoréalistes conditionnelles à une disposition sémantique donnée. Lorsqu’entraîné de manière end-to-end, le modèle obtenu surpasse les modèles génératifs d’état de l’art en synthèse d’images non supervisée sur deux domaines exigeants, selon les évaluations basées sur la distance de Fréchet Inception et des études utilisateurs. En outre, nous démontrons que les cartes de segmentation générées peuvent servir de données d’entraînement supplémentaires afin d’améliorer significativement les récents réseaux de synthèse image à partir de segmentation.