StackGAN : Synthèse d'images photoréalistes à partir de texte avec des réseaux adverses génératifs empilés

La synthèse d'images de haute qualité à partir de descriptions textuelles est un problème complexe en vision par ordinateur et possède de nombreuses applications pratiques. Les échantillons générés par les approches actuelles de transformation du texte en image peuvent approximativement refléter le sens des descriptions données, mais ils ne contiennent pas les détails nécessaires ni des parties d'objets vivantes. Dans cet article, nous proposons des Réseaux Adverses Générateurs Empilés (StackGAN) pour générer des images photo-réalistes de 256x256 pixels conditionnées par des descriptions textuelles. Nous décomposons ce problème difficile en sous-problèmes plus gérables grâce à un processus de raffinement à partir d'esquisses. Le StackGAN de la Phase I esquisse la forme primitive et les couleurs de l'objet en se basant sur la description textuelle donnée, produisant ainsi des images de faible résolution de la Phase I. Le StackGAN de la Phase II prend en entrée les résultats de la Phase I et les descriptions textuelles, et génère des images de haute résolution avec des détails photo-réalistes. Il est capable de corriger les défauts présents dans les résultats de la Phase I et d'ajouter des détails convaincants grâce au processus de raffinement. Pour améliorer la diversité des images synthétisées et stabiliser l'entraînement du GAN conditionnel, nous introduisons une nouvelle technique appelée Augmentation Conditionnelle qui encourage la régularité dans l'espace latent conditionnel. De nombreuses expériences et comparaisons avec les méthodes d'état de l'art sur des jeux de données standards montrent que notre méthode proposée réalise des améliorations significatives dans la génération d'images photo-réalistes conditionnées par des descriptions textuelles.