ACDiT : Interpolation entre la modélisation conditionnelle autoregressive et le Transformer de diffusion

L’essor récent de l’intérêt porté aux modèles multimodaux complets a rendu nécessaire l’unification de diverses modalités. Toutefois, cette unification souffre de méthodologies disparates. La génération visuelle continue exige une approche fondée sur la diffusion de séquence complète, malgré sa divergence par rapport au modèle autoregressif dominé dans le domaine du texte. Nous affirmons que le modèle autoregressif — c’est-à-dire la prédiction de l’avenir à partir d’expériences déterministes passées — reste crucial pour le développement à la fois de modèles de génération visuelle et de futurs modèles multimodaux unifiés. Dans cet article, nous explorons une interpolation entre le modèle autoregressif et la diffusion à paramètres complets afin de modéliser l’information visuelle. Au cœur de notre proposition, nous introduisons ACDiT, un Autoregressive blockwise Conditional Diffusion Transformer, dont la taille des blocs de diffusion — c’est-à-dire la taille des unités autoregressives — peut être ajustée de manière flexible pour interpoler entre l’autorégression au niveau des tokens et la diffusion de séquence complète. ACDiT est facile à implémenter, aussi simple que la création d’un masque d’attention Skip-Causal (SCAM) pendant l’entraînement. Pendant l’inférence, le processus itère entre le débruitage par diffusion et le décodage autoregressif, permettant une utilisation optimale du cache KV. Nous validons l’efficacité d’ACDiT sur des tâches de génération d’images et de vidéos. Nous démontrons également que, grâce au modèle autoregressif, ACDiT peut être utilisé de manière transparente dans des tâches de compréhension visuelle, même si elle a été entraînée sur une objectif de diffusion. L’analyse du compromis entre modélisation autoregressive et diffusion met en lumière le potentiel d’ACDiT pour les tâches de génération visuelle à horizon long. Ces avantages en font un candidat prometteur pour devenir le socle des futurs modèles unifiés.