Amélioration de la synthèse d’images à partir de texte en utilisant l’apprentissage contrastif

L'objectif de la synthèse d'images à partir de texte est de générer une image visuellement réaliste correspondant à une description textuelle donnée. En pratique, les légendes annotées par des humains pour une même image présentent une grande variabilité en termes de contenu et de choix lexical. Cette discordance linguistique entre les légendes associées à une même image entraîne une déviation des images synthétisées par rapport à la vérité terrain. Pour résoudre ce problème, nous proposons une approche fondée sur l'apprentissage contrastif afin d'améliorer la qualité des images synthétisées et d'en renforcer la cohérence sémantique. Lors de la phase de pré-entraînement, nous utilisons cette méthode d'apprentissage contrastif pour apprendre des représentations textuelles cohérentes pour les légendes associées à une même image. Par la suite, pendant l'entraînement des réseaux antagonistes génératifs (GAN), nous appliquons la même méthode d'apprentissage contrastif afin d'améliorer la cohérence entre les images générées à partir de légendes liées à la même image. Nous évaluons notre approche sur deux modèles populaires de synthèse d'images à partir de texte, AttnGAN et DM-GAN, respectivement sur les jeux de données CUB et COCO. Les résultats expérimentaux démontrent que notre méthode permet d'améliorer efficacement la qualité des images synthétisées selon trois métriques : IS, FID et R-precision. En particulier, sur le jeu de données exigeant, COCO, notre approche améliore significativement la métrique FID de 29,60 % par rapport à AttnGAN et de 21,96 % par rapport à DM-GAN.