SDAR: Ein synergistisches Diffusions-AutoRegressions-Paradigma für skalierbare Sequenzgenerierung

Abstract
Wir stellen SDAR vor, ein synergistisches Diffusions-Autoregressions-Paradigma, das die Trainingseffizienz autoregressiver Modelle mit der parallelen Inferenzfähigkeit von Diffusionsmodellen vereint. Anstelle kostspieliger End-to-End-Diffusions-Trainings führt SDAR eine leichtgewichtige Paradigmenkonvertierung durch, bei der ein gut trainiertes autoregressives (AR) Modell durch eine kurze, dateneffiziente Anpassung in ein blockweises Diffusionsmodell umgewandelt wird. Während der Inferenz generiert SDAR Sequenzen autoregressiv über Blöcke hinweg, um globale Kohärenz zu gewährleisten, während innerhalb jedes Blocks alle Token parallel über einen diskreten Diffusionsprozess decodiert werden. Umfangreiche Experimente zeigen, dass autoregressive Modelle im Vergleich zu maskierten Diffusionsmodellen erheblich rechenintensiver effizienter bleiben und somit eine solide Grundlage für die Anpassung bilden. Auf dieser Erkenntnis aufbauend erreicht SDAR eine effiziente Umwandlung von AR- zu Diffusionsmodellen mit minimalen Kosten, wobei die Leistung auf AR-Niveau beibehalten wird, gleichzeitig aber parallele Generierung ermöglicht wird. Skalierungsstudien an dichten Architekturen und Mixture-of-Experts-Modellen bestätigen, dass SDAR ohne Kompromisse skaliert: Größere Modelle zeigen eine stärkere Robustheit gegenüber Blockgröße und Decoding-Schwellenwerten und erzielen dabei höhere Beschleunigungen ohne Genauigkeitsverlust. Neben der Effizienz zeigt SDAR zudem verbesserte Schlussfolgerungsfähigkeit und Anpassungsfähigkeit an verschiedene Domänen. Unser 30B-MoE-Modell übertrifft seine AR-Entsprechung bei anspruchsvollen wissenschaftlichen Schlussfolgerungsbenchmarks wie GPQA und ChemBench und erzielt zusätzliche Verbesserungen durch Testzeit-Skalierungsmethoden wie Majority Voting und pass@k. Zusammenfassend etabliert SDAR ein praktikables Paradigma, das die Stärken der Autoregression und der Diffusion vereint, um skalierbare, hochdurchsatzfähige Schlussfolgerung zu ermöglichen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.