il y a 6 mois

Résumé

Nous présentons LlamaGen, une nouvelle famille de modèles de génération d’images qui applique le paradigme original de « prédiction du prochain jeton » des grands modèles linguistiques au domaine de la génération visuelle. Il s’agit d’une réponse affirmative à la question de savoir si des modèles autoregressifs purs, tels que Llama, sans biais inductifs sur les signaux visuels, peuvent atteindre des performances de pointe en génération d’images lorsqu’ils sont correctement mis à l’échelle. Nous réexaminons l’espace de conception des tokeniseurs d’images, les propriétés d’évolutivité des modèles de génération d’images, ainsi que la qualité de leurs données d’entraînement. Les résultats de cette exploration se traduisent par : (1) un tokeniseur d’images avec un ratio de sous-échantillonnage de 16, une qualité de reconstruction de 0,94 rFID et une utilisation du codebook de 97 % sur le benchmark ImageNet ; (2) une série de modèles de génération d’images conditionnés par classe, allant de 111 M à 3,1 G de paramètres, atteignant un score FID de 2,18 sur le benchmark ImageNet 256×256, surpassant ainsi des modèles de diffusion populaires tels que LDM et DiT ; (3) un modèle de génération d’images conditionné par texte de 775 M de paramètres, entraîné en deux étapes sur LAION-COCO et des images de haute qualité esthétique, démontrant des performances compétitives en termes de qualité visuelle et d’alignement avec le texte ; (4) nous confirmons l’efficacité des cadres de service des grands modèles linguistiques (LLM) pour optimiser la vitesse d’inférence des modèles de génération d’images, obtenant une accélération allant de 326 % à 414 %. Nous mettons à disposition tous les modèles et le code source afin de favoriser le développement de la communauté open source en matière de génération visuelle et de modèles fondamentaux multimodaux.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters