HyperAIHyperAI

Command Palette

Search for a command to run...

Extension des modèles autoregressifs pour la génération d’images à partir de texte riche en contenu

Résumé

Nous présentons le modèle Pathways Autoregressive Text-to-Image (Parti), capable de générer des images photoréalistes de haute fidélité et de soutenir une synthèse riche en contenu, incluant des compositions complexes et des connaissances sur le monde. Parti traite la génération d’images à partir de texte comme un problème de modélisation séquence-à-séquence, similaire à la traduction automatique, en considérant des séquences de tokens d’image comme sortie cible, plutôt que des tokens de texte dans une autre langue. Cette approche permet naturellement d’exploiter l’abondante littérature préexistante sur les grands modèles linguistiques, dont les performances et capacités se sont améliorées continuellement grâce à l’augmentation des volumes de données et des tailles des modèles. Notre méthode est simple : tout d’abord, Parti utilise un tokeniseur d’image basé sur Transformer, ViT-VQGAN, pour représenter les images sous forme de séquences de tokens discrets. Ensuite, en échelonnant le modèle Transformer encodeur-décodeur jusqu’à 20 milliards de paramètres, nous obtenons des améliorations constantes en qualité, atteignant un score FID zéro-shot de pointe de 7,23 et un score FID ajusté par fine-tuning de 3,22 sur MS-COCO. Une analyse détaillée menée sur Localized Narratives ainsi que sur PartiPrompts (P2), une nouvelle évaluation holistique comprenant plus de 1600 prompts en anglais, démontre l’efficacité de Parti à travers une large variété de catégories et de niveaux de difficulté. Nous explorons également les limites de nos modèles afin d’identifier et illustrer les axes clés nécessitant des améliorations futures. Pour consulter des images en haute résolution, rendez-vous sur https://parti.research.google/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp