D-AR : Diffusion par des Modèles Autorégressifs

Ce document présente Diffusion via Autoregressive models (D-AR), un nouveau paradigme qui reformule le processus de diffusion d'images comme une procédure autoregressive standard dans le style de prédiction du prochain jeton. Nous commençons par concevoir le tokeniseur qui convertit les images en séquences de jetons discrets, où les jetons à différentes positions peuvent être décodés en étapes de débruitage de diffusion différentes dans l'espace des pixels. Grâce aux propriétés de diffusion, ces jetons suivent naturellement un ordre grossier à fin, ce qui se prête directement au modèle autoregressif. Par conséquent, nous appliquons la prédiction standard du prochain jeton sur ces jetons, sans modifier aucune conception sous-jacente (que ce soit des masques causaux ou des stratégies d'entraînement/déduction), et cette génération séquentielle de jetons autoregressifs reflète directement le processus de diffusion dans l'espace des images. Autrement dit, une fois que le modèle autoregressif génère une augmentation de jetons, nous pouvons décoder directement ces jetons en l'étape correspondante de débruitage de diffusion dans un flux continu. Notre pipeline révèle naturellement plusieurs propriétés intéressantes, par exemple, il prend en charge des aperçus cohérents lors de la génération d'un sous-ensemble de jetons et permet une synthèse contrôlée par la mise en page sans apprentissage supervisé. Sur le banc d'essai ImageNet standard, notre méthode atteint un score FID de 2,09 en utilisant un backbone Llama de 775 millions de paramètres avec 256 jetons discrets. Nous espérons que notre travail pourra inspirer des recherches futures sur les architectures autoregressives unifiées pour la synthèse visuelle, notamment avec les grands modèles linguistiques. Le code et les modèles seront disponibles sur https://github.com/showlab/D-AR.