HyperAIHyperAI
vor 8 Tagen

ACDiT: Interpolieren von autoregressiven bedingten Modellierungen und Diffusions-Transformer

Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
ACDiT: Interpolieren von autoregressiven bedingten Modellierungen und Diffusions-Transformer
Abstract

Die jüngste Zunahme des Interesses an umfassenden multimodalen Modellen hat die Vereinheitlichung verschiedener Modalitäten erforderlich gemacht. Allerdings leidet diese Vereinheitlichung unter unterschiedlichen Methodologien. Die kontinuierliche visuelle Generierung erfordert einen vollsequenziellen, auf Diffusion basierenden Ansatz, obwohl dieser von der autoregressiven Modellierung im Textbereich abweicht. Wir vermuten, dass die autoregressive Modellierung – also die Vorhersage der Zukunft auf Basis vergangener deterministischer Erfahrungen – weiterhin entscheidend für die Entwicklung sowohl von visuellen Generierungsmodellen als auch potenziell einheitlicher multimodaler Modelle ist. In diesem Artikel untersuchen wir eine Interpolation zwischen autoregressiver Modellierung und vollparametrischer Diffusion zur Modellierung visueller Informationen. Kernstück unserer Arbeit ist ACDiT, ein Autoregressiver blockweiser bedingter Diffusions-Transformer, bei dem die Blockgröße der Diffusion – also die Größe der autoregressiven Einheiten – flexibel angepasst werden kann, um zwischen tokenweiser Autoregression und vollsequenzieller Diffusion zu interpolieren. ACDiT ist einfach zu implementieren, da während des Trainings lediglich eine Skip-Causal Attention Mask (SCAM) erstellt werden muss. Während der Inferenz iteriert der Prozess zwischen Diffusions-Denoising und autoregressiver Dekodierung, wodurch KV-Cache optimal genutzt werden kann. Wir bestätigen die Wirksamkeit von ACDiT an Aufgaben der Bild- und Videogenerierung. Zudem zeigen wir, dass ACDiT – dank der autoregressiven Modellierung – nahtlos auch in visuelle Verständnisaufgaben eingesetzt werden kann, obwohl es ausschließlich auf der Diffusions-Zielfunktion trainiert wurde. Die Analyse des Kompromisses zwischen autoregressiver Modellierung und Diffusion verdeutlicht das Potenzial von ACDiT für Aufgaben der langfristigen visuellen Generierung. Diese Stärken machen ACDiT zu einem vielversprechenden Baustein zukünftiger einheitlicher Modelle.

ACDiT: Interpolieren von autoregressiven bedingten Modellierungen und Diffusions-Transformer | Neueste Forschungsarbeiten | HyperAI