DF-GAN : Une base simple et efficace pour la synthèse d’images à partir de texte

La synthèse d’images réalistes de haute qualité à partir de descriptions textuelles constitue une tâche difficile. Les réseaux génératifs adversaires (GAN) existants pour la génération d’images à partir de texte adoptent généralement une architecture empilée comme cœur du modèle, tout en souffrant encore de trois défauts majeurs. Premièrement, l’architecture empilée entraîne des entrelacements entre les générateurs correspondant à différentes échelles d’image. Deuxièmement, les travaux antérieurs ont tendance à intégrer et à fixer des réseaux supplémentaires dans le cadre de l’apprentissage adversaire afin de garantir la cohérence sémantique entre texte et image, ce qui limite la capacité de supervision de ces réseaux. Troisièmement, la fusion texte-image basée sur l’attention intermodale, largement utilisée dans les travaux antérieurs, est limitée à certaines échelles d’image spécifiques en raison de son coût computationnel élevé. Ainsi, nous proposons un modèle plus simple mais plus efficace, appelé Deep Fusion GAN (DF-GAN). Plus précisément, nous introduisons : (i) un nouveau noyau unistage pour la génération d’images à partir de texte, capable de produire directement des images haute résolution sans entrelacement entre les générateurs à différentes échelles ; (ii) un nouveau discriminateur ciblé, composé d’un pénalité de gradient conscient de l’alignement et d’une sortie unidirectionnelle, qui renforce la cohérence sémantique entre texte et image sans recourir à des réseaux supplémentaires ; (iii) un nouveau bloc de fusion profonde texte-image, qui approfondit le processus de fusion pour assurer une intégration complète entre les caractéristiques textuelles et visuelles. Par rapport aux méthodes les plus avancées actuelles, notre DF-GAN est plus simple, plus efficace pour générer des images réalistes et fidèles au texte, et obtient des performances supérieures sur des jeux de données largement utilisés.