Diffusions-Sprachmodelle sind überlegene Datenerlerner
Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

Abstract
Unter streng kontrollierten Vortrainingsbedingungen beobachten wir einen Kehrwert: Wenn einzigartige Daten begrenzt sind, übertreffen Diffusions-Sprachmodelle (DLMs) autoregressive (AR) Modelle konsistent, wenn sie über mehr Epochen trainiert werden. Der Kehrwert verschiebt sich später bei mehr oder höherwertigen Daten, früher bei größeren Modellen und bleibt über dichte und spärliche Architekturen hinweg bestehen. Wir weisen die Verbesserungen auf drei sich verstärkende Faktoren zurück: (1) beliebige Reihenfolge der Modellierung, (2) superdichte Rechenleistung durch iterative bidirektionale Entrauschung und (3) eingebaute Monte-Carlo-Augmentation; Rauschen im Eingabedatensatz oder in den Parametern verbessert AR-Modelle unter Dateneinschränkung zwar, kann jedoch die Leistungs-Lücke nicht schließen. In Skalierung übertreffen ein 1,7-Mrd.-Parameter-DLM, der mit einem Rechenaufwand von etwa 1,5 T Token auf 10 B einzigartigen Python-Token trainiert wurde, ein AR-Modell, das unter streng vergleichbaren Bedingungen trainiert wurde. Zudem erreicht ein 1-Mrd.-Parameter-DLM ohne besondere Tricks, lediglich durch wiederholte Verwendung des standardmäßigen Vortrainingsdatensatzes, eine Genauigkeit von über 56 % auf HellaSwag und über 33 % auf MMLU, basierend lediglich auf 1 B Token. Außerdem zeigen wir, dass steigende Validierungs-Cross-Entropy in diesem Regime nicht notwendigerweise auf eine Verschlechterung der nachgeschalteten Leistung hindeutet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.