HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Résumé

Nous présentons LlamaGen, une nouvelle famille de modèles de génération d’images qui applique le paradigme original de « prédiction du prochain jeton » des grands modèles linguistiques au domaine de la génération visuelle. Il s’agit d’une réponse affirmative à la question de savoir si des modèles autoregressifs purs, tels que Llama, sans biais inductifs sur les signaux visuels, peuvent atteindre des performances de pointe en génération d’images lorsqu’ils sont correctement mis à l’échelle. Nous réexaminons l’espace de conception des tokeniseurs d’images, les propriétés d’évolutivité des modèles de génération d’images, ainsi que la qualité de leurs données d’entraînement. Les résultats de cette exploration se traduisent par : (1) un tokeniseur d’images avec un ratio de sous-échantillonnage de 16, une qualité de reconstruction de 0,94 rFID et une utilisation du codebook de 97 % sur le benchmark ImageNet ; (2) une série de modèles de génération d’images conditionnés par classe, allant de 111 M à 3,1 G de paramètres, atteignant un score FID de 2,18 sur le benchmark ImageNet 256×256, surpassant ainsi des modèles de diffusion populaires tels que LDM et DiT ; (3) un modèle de génération d’images conditionné par texte de 775 M de paramètres, entraîné en deux étapes sur LAION-COCO et des images de haute qualité esthétique, démontrant des performances compétitives en termes de qualité visuelle et d’alignement avec le texte ; (4) nous confirmons l’efficacité des cadres de service des grands modèles linguistiques (LLM) pour optimiser la vitesse d’inférence des modèles de génération d’images, obtenant une accélération allant de 326 % à 414 %. Nous mettons à disposition tous les modèles et le code source afin de favoriser le développement de la communauté open source en matière de génération visuelle et de modèles fondamentaux multimodaux.

Dépôts de code

foundationvision/llamagen
Officiel
pytorch
Mentionné dans GitHub
0606zt/panollama
pytorch
Mentionné dans GitHub

Benchmarks

BenchmarkMéthodologieMétriques
image-generation-on-imagenet-256x256LlamaGen
FID: 2.18

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif | Articles de recherche | HyperAI