Open-MAGVIT2 : Un projet open-source visant à démocratiser la génération visuelle auto-régressive

Nous présentons Open-MAGVIT2, une famille de modèles de génération d’images auto-régressifs allant de 300 M à 1,5 milliard de paramètres. Le projet Open-MAGVIT2 permet une reproduction open-source du tokeniseur MAGVIT-v2 de Google, un tokeniseur doté d’un codebook de très grande taille (soit 2¹⁸ codes), et atteint des performances de reconstruction de pointe (1,17 rFID) sur ImageNet à une résolution de 256×256. En outre, nous explorons son application dans des modèles auto-régressifs simples et validons ses propriétés d’évolutivité. Pour aider les modèles auto-régressifs à prédire efficacement avec un vocabulaire extrêmement large, nous factorisons ce vocabulaire en deux sous-vocabulaires de tailles différentes grâce à une factorisation asymétrique des tokens, et introduisons par ailleurs une nouvelle stratégie de prédiction du « prochain sous-token » afin d’améliorer les interactions entre sous-tokens et ainsi optimiser la qualité de génération. Nous mettons à disposition l’ensemble des modèles et du code source afin de stimuler l’innovation et la créativité dans le domaine de la génération visuelle auto-régressive.