HyperAIHyperAI
il y a 17 jours

Modèles de diffusion texte-image photoréalistes avec compréhension approfondie du langage

{Mohammad Norouzi, David J Fleet, Jonathan Ho, Tim Salimans, Rapha Gontijo Lopes, S. Sara Mahdavi, Burcu Karagol Ayan, Seyed Kamyar Seyed Ghasemipour, Emily Denton, Jay Whang, Lala Li, Saurabh Saxena, William Chan, Chitwan Saharia}
Modèles de diffusion texte-image photoréalistes avec compréhension approfondie du langage
Résumé

Nous présentons Imagen, un modèle de diffusion texte-image offrant un degré sans précédent de réalisme photographique et une compréhension approfondie du langage. Imagen s'appuie sur la puissance des grands modèles linguistiques transformer pour comprendre le texte, tout en tirant parti de la force des modèles de diffusion pour générer des images de haute fidélité. Notre découverte clé est que les grands modèles linguistiques génériques (par exemple T5), préentraînés sur des corpus textuels uniquement, s'avèrent étonnamment efficaces pour encoder le texte dans le cadre de la synthèse d'images : augmenter la taille du modèle linguistique dans Imagen améliore à la fois la fidélité des échantillons et l’alignement entre image et texte bien davantage que d’augmenter la taille du modèle de diffusion d’image. Imagen atteint un nouveau score FID d’état de l’art de 7,27 sur le jeu de données COCO, sans avoir jamais été entraîné sur COCO, et les évaluateurs humains trouvent que les échantillons générés par Imagen sont au même niveau que les données COCO elles-mêmes en termes d’alignement image-texte. Pour évaluer de manière plus approfondie les modèles texte-image, nous introduisons DrawBench, une évaluation complète et exigeante pour les modèles texte-image. Grâce à DrawBench, nous comparons Imagen à des méthodes récentes telles que VQ-GAN+CLIP, les Modèles de diffusion latente et DALL-E 2, et constatons que les évaluateurs humains préfèrent Imagen aux autres modèles dans des comparaisons directes, tant en termes de qualité des échantillons que d’alignement image-texte. Pour un aperçu des résultats, rendez-vous sur https://imagen.research.google/.