MirrorGAN : Apprentissage de la génération d'images à partir de texte par redescription

La génération d'une image à partir d'une description textuelle a deux objectifs : le réalisme visuel et la cohérence sémantique. Bien que des progrès significatifs aient été réalisés dans la génération d'images de haute qualité et visuellement réalistes grâce aux réseaux adversariaux génératifs, garantir la cohérence sémantique entre la description textuelle et le contenu visuel reste un défi majeur. Dans cet article, nous abordons ce problème en proposant un nouveau cadre global-local attentif et préservant la sémantique pour la conversion texte-image-texte, appelé MirrorGAN. MirrorGAN exploite l'idée d'apprendre la génération texte-image par redescription et se compose de trois modules : un module d'embedding textuel sémantique (STEM), un module collaboratif attentif global-local pour la génération d'images en cascade (GLAM) et un module de régénération textuelle sémantique et d'alignement (STREAM). STEM génère des embeddings au niveau des mots et des phrases. GLAM possède une architecture en cascade permettant de générer des images cibles de manière progressive, du grossier au fin, en utilisant à la fois l'attention locale sur les mots et l'attention globale sur les phrases pour améliorer progressivement la diversité et la cohérence sémantique des images générées. STREAM vise à régénérer la description textuelle à partir de l'image générée, qui doit être sémantiquement alignée avec la description textuelle donnée. Des expériences approfondies menées sur deux jeux de données de référence publics démontrent la supériorité de MirrorGAN par rapport aux autres méthodes représentatives de pointe.