Command Palette
Search for a command to run...
Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif
Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Résumé
Nous présentons LlamaGen, une nouvelle famille de modèles de génération d’images qui applique le paradigme original de « prédiction du prochain jeton » des grands modèles linguistiques au domaine de la génération visuelle. Il s’agit d’une réponse affirmative à la question de savoir si des modèles autoregressifs purs, tels que Llama, sans biais inductifs sur les signaux visuels, peuvent atteindre des performances de pointe en génération d’images lorsqu’ils sont correctement mis à l’échelle. Nous réexaminons l’espace de conception des tokeniseurs d’images, les propriétés d’évolutivité des modèles de génération d’images, ainsi que la qualité de leurs données d’entraînement. Les résultats de cette exploration se traduisent par : (1) un tokeniseur d’images avec un ratio de sous-échantillonnage de 16, une qualité de reconstruction de 0,94 rFID et une utilisation du codebook de 97 % sur le benchmark ImageNet ; (2) une série de modèles de génération d’images conditionnés par classe, allant de 111 M à 3,1 G de paramètres, atteignant un score FID de 2,18 sur le benchmark ImageNet 256×256, surpassant ainsi des modèles de diffusion populaires tels que LDM et DiT ; (3) un modèle de génération d’images conditionné par texte de 775 M de paramètres, entraîné en deux étapes sur LAION-COCO et des images de haute qualité esthétique, démontrant des performances compétitives en termes de qualité visuelle et d’alignement avec le texte ; (4) nous confirmons l’efficacité des cadres de service des grands modèles linguistiques (LLM) pour optimiser la vitesse d’inférence des modèles de génération d’images, obtenant une accélération allant de 326 % à 414 %. Nous mettons à disposition tous les modèles et le code source afin de favoriser le développement de la communauté open source en matière de génération visuelle et de modèles fondamentaux multimodaux.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| image-generation-on-imagenet-256x256 | LlamaGen | FID: 2.18 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.