Synthèse d'images photographiques avec des réseaux de raffinement en cascade

Nous présentons une approche permettant de synthétiser des images photographiques conditionnées par des dispositions sémantiques. Étant donné une carte d'étiquettes sémantiques, notre méthode génère une image avec un aspect photographique qui correspond à la disposition d'entrée. Ainsi, cette approche fonctionne comme un moteur de rendu qui prend en entrée une spécification sémantique bidimensionnelle de la scène et produit une image photographique correspondante. Contrairement aux travaux récents et contemporains, notre approche ne repose pas sur un entraînement antagoniste (adversarial training). Nous montrons que des images photographiques peuvent être synthétisées à partir de dispositions sémantiques par un seul réseau neuronal à propagation avant doté d'une structure appropriée, formé de manière end-to-end avec un objectif de régression directe. L'approche présentée se généralise sans heurt à des résolutions élevées ; nous le démontrons en synthétisant des images photographiques à une résolution de 2 mégapixels, soit la résolution complète de nos données d'entraînement. Des expériences perceptuelles étendues sur des ensembles de données de scènes extérieures et intérieures montrent que les images synthétisées par l'approche présentée sont considérablement plus réalistes que celles produites par les approches alternatives. Les résultats sont présentés dans la vidéo supplémentaire disponible à l'adresse suivante : https://youtu.be/0fhUJT21-bs