HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model

Chengyue Wu Hao Zhang Shuchen Xue Shizhe Diao Yonggan Fu Zhijian Liu Pavlo Molchanov Ping Luo Song Han Enze Xie

Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model

Abstract

Autoregressive (AR) große Sprachmodelle (LLMs) haben hervorragende Leistungen bei einer Vielzahl natürlicher Sprachaufgaben erzielt, doch ihre inhärente sequenzielle Decodierung begrenzt die Effizienz der Inferenz. In dieser Arbeit stellen wir Fast-dLLM v2 vor, ein sorgfältig entworfenes Block-Diffusions-Sprachmodell (dLLM), das vortrainierte AR-Modelle effizient in dLLMs für parallele Textgenerierung umwandelt und dabei lediglich etwa 1 Milliarde Tokens für das Fine-Tuning benötigt. Dies entspricht einer Reduktion des Trainingsdatenvolumens um den Faktor 500 im Vergleich zu voll-Attention-Diffusions-LLMs wie Dream (580 Milliarden Tokens), wobei die ursprüngliche Modellleistung vollständig erhalten bleibt. Unser Ansatz führt ein neuartiges Trainingsrezept ein, das eine Block-Diffusionsmechanik mit einer komplementären Aufmerksamkeitsmaske kombiniert und eine blockweise bidirektionale Kontextmodellierung ermöglicht, ohne die ursprünglichen AR-Trainingsziele zu beeinträchtigen. Um die Decodierung weiter zu beschleunigen, haben wir eine hierarchische Caching-Mechanismus entwickelt: einen Block-Level-Cache, der historische Kontextrepräsentationen über mehrere Blöcke hinweg speichert, sowie einen Sub-Block-Cache, der eine effiziente parallele Generierung innerhalb teilweise decodierter Blöcke ermöglicht. In Kombination mit unserem parallelen Decodierungs-Pipeline erreicht Fast-dLLM v2 eine bis zu 2,5-fache Beschleunigung gegenüber der Standard-AR-Decodierung, ohne die Qualität der Generierung zu beeinträchtigen. Umfangreiche Experimente an verschiedenen Benchmarks zeigen, dass Fast-dLLM v2 die Genauigkeit von AR-Baselines erreicht oder übertreffen kann und gleichzeitig die führende Effizienz unter allen dLLMs aufweist – ein bedeutender Schritt hin zur praktischen Anwendung schneller und präziser LLMs. Der Quellcode und das Modell werden öffentlich zugänglich gemacht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model | Forschungsarbeiten | HyperAI