Stabiliser l'espace latent pour le modélisation autorégressive d'images : une perspective unifiée

Les modèles génératifs d'images basés sur des latents, tels que les Modèles de Diffusion Latente (LDMs) et les Modèles d'Image Masquée (MIMs), ont connu un succès remarquable dans les tâches de génération d'images. Ces modèles utilisent généralement des autoencodeurs reconstructifs comme le VQGAN ou le VAE pour encoder les pixels dans un espace latent plus compact et apprendre la distribution des données dans cet espace latent plutôt que directement à partir des pixels. Cependant, cette pratique soulève une question pertinente : s'agit-il réellement du meilleur choix ? Pour y répondre, nous commençons par une observation intéressante : malgré le partage du même espace latent, les modèles autorégressifs sont nettement en retard par rapport aux LDMs et MIMs en termes de génération d'images. Cette constatation contraste fortement avec le domaine du traitement du langage naturel (NLP), où le modèle autorégressif GPT a établi une présence dominante. Afin de résoudre cette discordance, nous présentons une perspective unifiée sur la relation entre l'espace latent et les modèles génératifs, mettant l'accent sur la stabilité de l'espace latent dans la modélisation générative d'images. De plus, nous proposons un tokeniseur d'image discret simple mais efficace pour stabiliser l'espace latent dans la modélisation générative d'images. Les résultats expérimentaux montrent que la modélisation autorégressive d'images avec notre tokeniseur (DiGIT) améliore à la fois la compréhension des images et leur génération grâce au principe de prédiction du prochain token, qui est naturellement simple pour les modèles GPT mais difficile pour d'autres modèles génératifs. Remarquablement, pour la première fois, un modèle autorégressif style GPT pour les images surpasses les LDMs, ce qui montre également une amélioration substantielle similaire à celle de GPT lorsque la taille du modèle est augmentée. Nos résultats soulignent le potentiel d'un espace latent optimisé et l'intégration de la tokenisation discrète pour améliorer les capacités des modèles génératifs d'images. Le code est disponible à l'adresse suivante : https://github.com/DAMO-NLP-SG/DiGIT.