Diffusions-LLMs können schneller als AR-Inferenz über diskrete Diffusion erzwingen

Diffusions-basierte große Sprachmodelle (dLLMs) sind als vielversprechende Alternative zu autoregressiven (AR) LLMs für die Textgenerierung hervorgetreten und ermöglichen die Decodierung mehrerer Tokens in einer einzigen Iteration. Dennoch haben bisher keine der verfügbaren Open-Source-dLLMs eine überlegene Inferenzgeschwindigkeit im Vergleich zu AR-LLMs ähnlicher Größe erreicht. In dieser Arbeit wird dieser Engpass durch eine einfache und effektive Strategie namens Discrete Diffusion Forcing (D2F) überwunden. D2F verleiht dLLMs zwei zentrale Fähigkeiten: (1) blockweise autoregressive Generierung, um die Nutzung des KV-Cache zu ermöglichen; (2) die Vorhersage nachfolgender Tokens, ohne dass die vorherigen Blöcke vollständig abgeschlossen sein müssen – eine Voraussetzung für parallele Decodierung zwischen Blöcken. Auf diese Weise wird das ursprüngliche dLLM in ein hybrides AR-Diffusion-Paradigma für eine effiziente Inferenz transformiert. D2F lässt sich mittels eines asymmetrischen Distillationsschemas auf Basis vortrainierter dLLMs implementieren. Zudem stellen wir einen pipelined parallelen Decodierungs-Algorithmus vor, der einen Kompromiss zwischen Effizienz und Wirksamkeit ermöglicht. Empirisch erreichen D2F-dLLMs eine Inferenzgeschwindigkeit, die mehr als 2,5-mal höher ist als die von LLaMA3 und Qwen2.5 auf dem GSM8K-Datensatz. Im Vergleich zu herkömmlichen dLLMs wie LLaDA und Dream erzielen sie eine Beschleunigung um mehr als das 50-fache, wobei die Ausgabqualität nahezu unverändert bleibt. Der Quellcode ist unter https://github.com/zhijie-group/Discrete-Diffusion-Forcing verfügbar.