TediGAN : Génération et manipulation d'images de visages divers guidées par le texte

Dans cette étude, nous proposons TediGAN, un cadre novateur pour la génération et la manipulation d'images multi-modales avec des descriptions textuelles. La méthode proposée se compose de trois composants : le module d'inversion StyleGAN, l'apprentissage de similarité visuelle-linguistique et l'optimisation au niveau de l'instance. Le module d'inversion mappe les images réelles dans l'espace latent d'un StyleGAN bien entraîné. L'apprentissage de similarité visuelle-linguistique apprend le couplage texte-image en mapant l'image et le texte dans un espace d'embedding commun. L'optimisation au niveau de l'instance vise à préserver l'identité lors de la manipulation. Notre modèle est capable de produire des images diverses et de haute qualité avec une résolution sans précédent de 1024 pixels. En utilisant un mécanisme de contrôle basé sur le mélange des styles (style-mixing), notre TediGAN prend naturellement en charge la synthèse d'images avec des entrées multi-modales, telles que des croquis ou des labels sémantiques, avec ou sans guidage au niveau de l'instance. Pour faciliter la synthèse multi-modale guidée par le texte, nous proposons Multi-Modal CelebA-HQ, un jeu de données à grande échelle comprenant des images faciales réelles ainsi que leurs cartes de segmentation sémantique correspondantes, leurs croquis et leurs descriptions textuelles. De nombreuses expérimentations menées sur ce jeu de données introduit montrent les performances supérieures de notre méthode proposée. Le code source et les données sont disponibles à l'adresse suivante : https://github.com/weihaox/TediGAN.