MaskBit : Génération d’images sans embedding par tokens binaires

Les modèles transformer masqués pour la génération d’images conditionnelles par classe se sont imposés comme une alternative prometteuse aux modèles de diffusion. Typiquement composés de deux étapes — un modèle initial VQGAN pour la transition entre l’espace latent et l’espace image, suivi d’un modèle Transformer pour la génération d’images dans l’espace latent — ces cadres offrent des voies prometteuses pour la synthèse d’images. Dans cette étude, nous présentons deux contributions principales : premièrement, une analyse empirique et systématique des VQGAN, aboutissant à une version modernisée de VQGAN ; deuxièmement, un nouveau réseau de génération sans embeddings fonctionnant directement sur des tokens binaires — une représentation binaire quantifiée des tokens, riche en sémantique. La première contribution fournit un modèle VQGAN transparent, reproductible et performant, améliorant l’accessibilité tout en atteignant des performances équivalentes aux méthodes de pointe actuelles, tout en révélant des détails auparavant inconnus. La deuxième contribution démontre que la génération d’images sans embeddings utilisant des tokens binaires atteint un nouveau record d’indice FID de 1,52 sur le benchmark ImageNet 256x256, avec un modèle générateur compact de seulement 305 millions de paramètres.