Libérer les Transformers : Prédiction parallèle des tokens avec diffusion absorbante discrète pour une génération d’images haute résolution rapide à partir de codes vectorisés quantifiés

Bien que les modèles probabilistes de diffusion soient capables de générer des contenus d’image de haute qualité, des limites fondamentales persistent en ce qui concerne la génération d’images à haute résolution ainsi que les exigences computationnelles élevées associées. Les modèles récents basés sur une quantification vectorielle (Vector-Quantized) ont surmonté la limitation de la résolution d’image, mais ils sont prohibitivement lents et unidirectionnels, car ils génèrent les tokens par échantillonnage autoregressif élément par élément à partir d’un modèle a priori. À l’inverse, dans cet article, nous proposons un nouveau modèle a priori probabiliste discret à diffusion, qui permet une prédiction parallèle des tokens quantifiés vectoriellement en utilisant une architecture Transformer non contrainte comme squelette. Lors de l’entraînement, les tokens sont masqués aléatoirement de manière indépendante de l’ordre, et le modèle Transformer apprend à prédire les tokens d’origine. Cette parallélisation de la prédiction des tokens quantifiés vectoriellement facilite ainsi la génération inconditionnelle d’images à haute résolution et globalement cohérentes, avec une consommation computationnelle réduite à un fractionnement. De cette manière, nous pouvons générer des résolutions d’image dépassant celles des échantillons du jeu de données d’entraînement initial, tout en offrant en outre des estimations de vraisemblance par image (ce qui constitue une divergence par rapport aux approches génératives adversariales). Notre méthode atteint des résultats de pointe en termes de densité (LSUN Bedroom : 1,51 ; LSUN Churches : 1,12 ; FFHQ : 1,20) et de couverture (LSUN Bedroom : 0,83 ; LSUN Churches : 0,73 ; FFHQ : 0,80), tout en se montrant compétitive en termes de FID (LSUN Bedroom : 3,64 ; LSUN Churches : 4,07 ; FFHQ : 6,11), tout en offrant des avantages significatifs en matière de calcul et de réduction des besoins en données d’entraînement.