Génération contrôlable de texte en image

Dans cet article, nous proposons un nouveau réseau antagoniste génératif text-to-image contrôlable (ControlGAN), capable de synthétiser efficacement des images de haute qualité tout en permettant de contrôler certaines parties de la génération d’images selon des descriptions en langage naturel. Pour atteindre cet objectif, nous introduisons un générateur piloté par une attention au niveau des mots, spatiale et canal par canal, qui permet de déconnecter différents attributs visuels et de permettre au modèle de se concentrer sur la génération et la manipulation de sous-régions correspondant aux mots les plus pertinents. Par ailleurs, nous proposons un discriminateur au niveau des mots, qui fournit un retour d’information supervisé à fort grain en corrélant les mots aux régions d’image, facilitant ainsi l’entraînement d’un générateur efficace capable de manipuler des attributs visuels spécifiques sans altérer la génération du reste du contenu. En outre, une perte perceptuelle est adoptée afin de réduire la part de hasard inhérente à la génération d’images et d’encourager le générateur à manipuler les attributs spécifiques requis dans le texte modifié. Des expériences étendues sur des jeux de données standards démontrent que notre méthode surpasse les états de l’art existants et est capable de manipuler efficacement des images synthétiques à l’aide de descriptions en langage naturel. Le code est disponible à l’adresse suivante : https://github.com/mrlibw/ControlGAN.