AttnGAN : Génération d'images détaillées à partir de textes avec des réseaux adverses génératifs attentionnels

Dans cet article, nous proposons un réseau génératif adversarial à l'attention (AttnGAN) qui permet une amélioration en plusieurs étapes guidée par l'attention pour la génération d'images à partir de textes avec un niveau de détail fin. Grâce à un nouveau réseau génératif à l'attention, l'AttnGAN peut synthétiser des détails fins dans différentes sous-régions de l'image en portant une attention aux mots pertinents de la description en langage naturel. De plus, un modèle de similarité multimodale profonde est proposé pour calculer une perte de correspondance image-texte à détail fin lors de l'entraînement du générateur. L'AttnGAN proposé surpasse considérablement les meilleures performances précédentes, augmentant le meilleur score d'inception rapporté de 14,14 % sur le jeu de données CUB et de 170,25 % sur le jeu de données COCO plus difficile. Une analyse détaillée est également réalisée en visualisant les couches d'attention de l'AttnGAN. Elle montre pour la première fois que le GAN à attention couche par couche est capable de sélectionner automatiquement la condition au niveau des mots pour générer différentes parties de l'image.