HyperAIHyperAI
il y a 18 jours

Apprentissage de la prédiction de convolutions conditionnelles disposition-image pour la synthèse d'images sémantiques

Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, Hongsheng Li
Apprentissage de la prédiction de convolutions conditionnelles disposition-image pour la synthèse d'images sémantiques
Résumé

La synthèse d’images sémantiques vise à générer des images photoréalistes à partir de maquettes sémantiques. Les approches précédentes basées sur les réseaux antagonistes génératifs conditionnels (GAN) ont atteint des performances de pointe sur cette tâche, en fournissant soit les cartes d’étiquettes sémantiques en entrée du générateur, soit en les utilisant pour moduler les activations dans les couches de normalisation via des transformations affines. Nous soutenons que les noyaux de convolution du générateur devraient être sensibles aux étiquettes sémantiques distinctes à différentes positions lors de la génération d’images. Afin d’exploiter de manière plus efficace la carte sémantique pour le générateur d’images, nous proposons de prédire les noyaux de convolution conditionnellement à la carte d’étiquettes sémantiques, afin de générer les cartes de caractéristiques intermédiaires à partir des cartes de bruit et, par la suite, de produire les images. En outre, nous introduisons un discriminateur à intégration hiérarchique de sémantique par pyramide de caractéristiques, qui s’avère plus efficace que les discriminateurs multi-échelles précédents pour améliorer les détails fins et l’alignement sémantique entre les images générées et les maquettes sémantiques d’entrée. Nos résultats atteignent l’état de l’art en termes de métriques quantitatives et d’évaluation subjective sur diverses bases de données de segmentation sémantique, démontrant ainsi l’efficacité de notre approche.

Apprentissage de la prédiction de convolutions conditionnelles disposition-image pour la synthèse d'images sémantiques | Articles de recherche récents | HyperAI