Synthèse sémantique d'images avec normalisation spatialement adaptative

Nous proposons la normalisation spatialement adaptative, une couche simple mais efficace pour synthétiser des images photoréalistes à partir d'un modèle sémantique d'entrée. Les méthodes précédentes alimentent directement le modèle sémantique en entrée du réseau profond, qui est ensuite traité par des piles de couches de convolution, de normalisation et de non-linéarité. Nous montrons que cette approche est sous-optimale car les couches de normalisation ont tendance à "laver" l'information sémantique. Pour résoudre ce problème, nous proposons d'utiliser le modèle d'entrée pour moduler les activations dans les couches de normalisation grâce à une transformation spatialement adaptative et apprise. Des expériences sur plusieurs jeux de données difficiles démontrent l'avantage de notre méthode par rapport aux approches existantes, tant en termes de fidélité visuelle que d'alignement avec les modèles d'entrée. Enfin, notre modèle permet un contrôle utilisateur sur la sémantique et le style. Le code source est disponible à l'adresse suivante : https://github.com/NVlabs/SPADE .