HyperAIHyperAI

Command Palette

Search for a command to run...

Open-MAGVIT2 : Un projet open-source visant à démocratiser la génération visuelle auto-régressive

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

Résumé

Nous présentons Open-MAGVIT2, une famille de modèles de génération d’images auto-régressifs allant de 300 M à 1,5 milliard de paramètres. Le projet Open-MAGVIT2 permet une reproduction open-source du tokeniseur MAGVIT-v2 de Google, un tokeniseur doté d’un codebook de très grande taille (soit 2¹⁸ codes), et atteint des performances de reconstruction de pointe (1,17 rFID) sur ImageNet à une résolution de 256×256. En outre, nous explorons son application dans des modèles auto-régressifs simples et validons ses propriétés d’évolutivité. Pour aider les modèles auto-régressifs à prédire efficacement avec un vocabulaire extrêmement large, nous factorisons ce vocabulaire en deux sous-vocabulaires de tailles différentes grâce à une factorisation asymétrique des tokens, et introduisons par ailleurs une nouvelle stratégie de prédiction du « prochain sous-token » afin d’améliorer les interactions entre sous-tokens et ainsi optimiser la qualité de génération. Nous mettons à disposition l’ensemble des modèles et du code source afin de stimuler l’innovation et la créativité dans le domaine de la génération visuelle auto-régressive.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp