HyperAIHyperAI

Command Palette

Search for a command to run...

vor 13 Tagen

TiDAR: Denken Sie in Diffusion, sprechen Sie in Autoregression

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

TiDAR: Denken Sie in Diffusion, sprechen Sie in Autoregression

Abstract

Diffusions-Sprachmodelle versprechen eine schnelle parallele Generierung, während autoregressive (AR) Modelle typischerweise eine höhere Qualität aufweisen, da ihre kausale Struktur sich naturgemäß gut mit der Sprachmodellierung verbindet. Dies wirft eine grundlegende Frage auf: Können wir eine Synergie erzielen, die hohe Durchsatzleistung, eine höhere GPU-Auslastung und eine AR-qualitativ vergleichbare Genauigkeit vereint? Bisherige Ansätze gelingen es nicht, diese beiden Aspekte effektiv zu balancieren: Entweder wird AR-Modellierung bevorzugt, wobei ein schwächeres Modell sequenziell zur Entwurfsgenerierung (speculative decoding) eingesetzt wird, was zu einer geringeren Effizienz des Entwurfs führt, oder es wird eine Art linkslastige (AR-ähnliche) Decodierlogik für Diffusionsmodelle verwendet, was weiterhin zu Qualitätsverlusten führt und deren Potenzial für Parallelisierung aufgibt. Wir stellen TiDAR vor – eine sequenzbasierte hybride Architektur, die Tokens (Thinking) in einem Diffusionsmodell entwirft und die endgültigen Ausgaben (Talking) autoregressiv abfragt – alles innerhalb einer einzigen Vorwärtsdurchlaufphase unter Verwendung speziell konzipierter strukturierter Aufmerksamkeitsmasken. Diese Architektur nutzt die frei verfügbare GPU-Rechenleistung optimal aus und erreicht eine starke Balance zwischen Entwurfskapazität und Überprüfungsleistung. Darüber hinaus ist TiDAR als eigenständiges Modell für den Einsatz in Produktionssystemen geeignet (geringer Overhead). Wir evaluieren TiDAR umfassend gegenüber AR-Modellen, speculative decoding und Diffusionsvarianten anhand generativer und Wahrscheinlichkeitsaufgaben bei Skalen von 1,5 B und 8 B. Dank der parallelen Entwurfsgenerierung und -abfrage sowie der exakten Unterstützung von KV-Caches übertrifft TiDAR den speculative decoding sowohl in der gemessenen Durchsatzleistung als auch die Diffusionsmodelle wie Dream und Llada hinsichtlich Effizienz und Qualität. Besonders bemerkenswert ist, dass TiDAR die erste Architektur ist, die die Qualitätslücke zu AR-Modellen schließt und gleichzeitig eine bis zu 4,71- bis 5,91-fach höhere Token-Zahl pro Sekunde liefert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TiDAR: Denken Sie in Diffusion, sprechen Sie in Autoregression | Forschungsarbeiten | HyperAI