Extension des modèles autoregressifs pour la génération d’images à partir de texte riche en contenu

Nous présentons le modèle Pathways Autoregressive Text-to-Image (Parti), capable de générer des images photoréalistes de haute fidélité et de soutenir une synthèse riche en contenu, incluant des compositions complexes et des connaissances sur le monde. Parti traite la génération d’images à partir de texte comme un problème de modélisation séquence-à-séquence, similaire à la traduction automatique, en considérant des séquences de tokens d’image comme sortie cible, plutôt que des tokens de texte dans une autre langue. Cette approche permet naturellement d’exploiter l’abondante littérature préexistante sur les grands modèles linguistiques, dont les performances et capacités se sont améliorées continuellement grâce à l’augmentation des volumes de données et des tailles des modèles. Notre méthode est simple : tout d’abord, Parti utilise un tokeniseur d’image basé sur Transformer, ViT-VQGAN, pour représenter les images sous forme de séquences de tokens discrets. Ensuite, en échelonnant le modèle Transformer encodeur-décodeur jusqu’à 20 milliards de paramètres, nous obtenons des améliorations constantes en qualité, atteignant un score FID zéro-shot de pointe de 7,23 et un score FID ajusté par fine-tuning de 3,22 sur MS-COCO. Une analyse détaillée menée sur Localized Narratives ainsi que sur PartiPrompts (P2), une nouvelle évaluation holistique comprenant plus de 1600 prompts en anglais, démontre l’efficacité de Parti à travers une large variété de catégories et de niveaux de difficulté. Nous explorons également les limites de nos modèles afin d’identifier et illustrer les axes clés nécessitant des améliorations futures. Pour consulter des images en haute résolution, rendez-vous sur https://parti.research.google/.