HyperAIHyperAI

Command Palette

Search for a command to run...

ACDiT : Interpolation entre la modélisation conditionnelle autoregressive et le Transformer de diffusion

Jinyi Hu Shengding Hu Yuxuan Song Yufei Huang Mingxuan Wang Hao Zhou Zhiyuan Liu Wei-Ying Ma Maosong Sun

Résumé

L’essor récent de l’intérêt porté aux modèles multimodaux complets a rendu nécessaire l’unification de diverses modalités. Toutefois, cette unification souffre de méthodologies disparates. La génération visuelle continue exige une approche fondée sur la diffusion de séquence complète, malgré sa divergence par rapport au modèle autoregressif dominé dans le domaine du texte. Nous affirmons que le modèle autoregressif — c’est-à-dire la prédiction de l’avenir à partir d’expériences déterministes passées — reste crucial pour le développement à la fois de modèles de génération visuelle et de futurs modèles multimodaux unifiés. Dans cet article, nous explorons une interpolation entre le modèle autoregressif et la diffusion à paramètres complets afin de modéliser l’information visuelle. Au cœur de notre proposition, nous introduisons ACDiT, un Autoregressive blockwise Conditional Diffusion Transformer, dont la taille des blocs de diffusion — c’est-à-dire la taille des unités autoregressives — peut être ajustée de manière flexible pour interpoler entre l’autorégression au niveau des tokens et la diffusion de séquence complète. ACDiT est facile à implémenter, aussi simple que la création d’un masque d’attention Skip-Causal (SCAM) pendant l’entraînement. Pendant l’inférence, le processus itère entre le débruitage par diffusion et le décodage autoregressif, permettant une utilisation optimale du cache KV. Nous validons l’efficacité d’ACDiT sur des tâches de génération d’images et de vidéos. Nous démontrons également que, grâce au modèle autoregressif, ACDiT peut être utilisé de manière transparente dans des tâches de compréhension visuelle, même si elle a été entraînée sur une objectif de diffusion. L’analyse du compromis entre modélisation autoregressive et diffusion met en lumière le potentiel d’ACDiT pour les tâches de génération visuelle à horizon long. Ces avantages en font un candidat prometteur pour devenir le socle des futurs modèles unifiés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ACDiT : Interpolation entre la modélisation conditionnelle autoregressive et le Transformer de diffusion | Articles | HyperAI