Au-delà de la prédiction du prochain token : la prédiction du prochain X pour la génération visuelle autoregressive

Le modèle autorégressif (AR), connu pour son paradigme de prédiction du prochain jeton, constitue la base des modèles génératifs linguistiques et visuels les plus avancés. Traditionnellement, un « jeton » est considéré comme l'unité de prédiction élémentaire, souvent un symbole discret en langage ou un bloc quantifié en vision. Toutefois, la définition optimale d’un jeton pour les structures d’images en 2D reste une question ouverte. Par ailleurs, les modèles AR souffrent d’un biais d’exposition (exposure bias), provoqué par l’utilisation du forçage enseignant (teacher forcing) pendant l’entraînement, ce qui entraîne une accumulation d’erreurs lors de l’inférence. Dans cet article, nous proposons xAR, un cadre AR généralisé qui étend la notion de jeton à une entité X, pouvant représenter un jeton de patch individuel, une cellule (un regroupement k×k de patches voisins), un sous-échantillonnage (un regroupement non local de patches éloignés), une échelle (résolution grossière à fine), voire une image entière. En outre, nous reformulons la classification discrète des jetons en régression continue d’entités, en exploitant des méthodes d’ajustement de flux (flow-matching) à chaque étape AR. Cette approche conditionne l’entraînement sur des entités bruitées plutôt que sur les vérités terrain, conduisant à une stratégie dite d’Apprentissage par Contexte Bruité (Noisy Context Learning), qui atténue efficacement le biais d’exposition. En conséquence, xAR présente deux avantages clés : (1) il permet des unités de prédiction flexibles capables de capturer différentes granularités contextuelles et structures spatiales, et (2) il atténue le biais d’exposition en évitant la dépendance au forçage enseignant. Sur le benchmark de génération d’ImageNet-256, notre modèle de base, xAR-B (172M de paramètres), dépasse les performances de DiT-XL/SiT-XL (675M) tout en offrant une inférence 20 fois plus rapide. Par ailleurs, xAR-H établit une nouvelle référence en matière d’état de l’art, avec un score FID de 1,24, tout en étant 2,2 fois plus rapide que le modèle précédent, sans recourir à des modules fondamentaux visuels (comme DINOv2) ni à des techniques avancées d’échantillonnage par intervalles guidés.