DM-GAN : Réseaux de Neurones Antagonistes Générateurs à Mémoire Dynamique pour la Synthèse d'Images à partir de Texte

Dans cet article, nous nous concentrons sur la génération d'images réalistes à partir de descriptions textuelles. Les méthodes actuelles génèrent d'abord une image initiale avec une forme et des couleurs approximatives, puis affinent cette image pour obtenir une version haute résolution. La plupart des méthodes existantes de synthèse d'images à partir de texte présentent deux problèmes principaux. (1) Ces méthodes dépendent fortement de la qualité des images initiales. Si l'image initiale n'est pas bien initialisée, les processus suivants peinent à affiner l'image jusqu'à une qualité satisfaisante. (2) Chaque mot contribue à un niveau différent d'importance lorsqu'il s'agit de décrire différents contenus d'image, mais une représentation textuelle inchangée est utilisée dans les processus actuels d'affinement des images. Dans cet article, nous proposons le réseau antagoniste génératif à mémoire dynamique (DM-GAN) pour générer des images de haute qualité. La méthode proposée introduit un module de mémoire dynamique pour affiner les contenus d'image flous lorsque les images initiales ne sont pas bien générées. Une porte d'écriture en mémoire est conçue pour sélectionner les informations textuelles importantes en fonction du contenu de l'image initiale, ce qui permet à notre méthode de générer précisément des images à partir de la description textuelle. Nous utilisons également une porte de réponse pour fusionner adaptativement les informations lues en mémoire et les caractéristiques d'image. Nous évaluons le modèle DM-GAN sur le jeu de données Caltech-UCSD Birds 200 et le jeu de données Microsoft Common Objects in Context. Les résultats expérimentaux montrent que notre modèle DM-GAN se compare favorablement aux approches les plus avancées.Note : Le terme "response gate" est traduit par "porte de réponse" car il s'agit d'un concept technique spécifique au domaine des réseaux neuronaux, et cette traduction préserve sa signification tout en restant compréhensible pour un lecteur francophone familier avec ces concepts.