HyperAIHyperAI

Command Palette

Search for a command to run...

vor 19 Tagen

Diffusions-Sprachmodelle sind überlegene Datenerlerner

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

Diffusions-Sprachmodelle sind überlegene Datenerlerner

Abstract

Unter streng kontrollierten Vortrainingsbedingungen beobachten wir einen Kehrwert: Wenn einzigartige Daten begrenzt sind, übertreffen Diffusions-Sprachmodelle (DLMs) autoregressive (AR) Modelle konsistent, wenn sie über mehr Epochen trainiert werden. Der Kehrwert verschiebt sich später bei mehr oder höherwertigen Daten, früher bei größeren Modellen und bleibt über dichte und spärliche Architekturen hinweg bestehen. Wir weisen die Verbesserungen auf drei sich verstärkende Faktoren zurück: (1) beliebige Reihenfolge der Modellierung, (2) superdichte Rechenleistung durch iterative bidirektionale Entrauschung und (3) eingebaute Monte-Carlo-Augmentation; Rauschen im Eingabedatensatz oder in den Parametern verbessert AR-Modelle unter Dateneinschränkung zwar, kann jedoch die Leistungs-Lücke nicht schließen. In Skalierung übertreffen ein 1,7-Mrd.-Parameter-DLM, der mit einem Rechenaufwand von etwa 1,5 T Token auf 10 B einzigartigen Python-Token trainiert wurde, ein AR-Modell, das unter streng vergleichbaren Bedingungen trainiert wurde. Zudem erreicht ein 1-Mrd.-Parameter-DLM ohne besondere Tricks, lediglich durch wiederholte Verwendung des standardmäßigen Vortrainingsdatensatzes, eine Genauigkeit von über 56 % auf HellaSwag und über 33 % auf MMLU, basierend lediglich auf 1 B Token. Außerdem zeigen wir, dass steigende Validierungs-Cross-Entropy in diesem Regime nicht notwendigerweise auf eine Verschlechterung der nachgeschalteten Leistung hindeutet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Diffusions-Sprachmodelle sind überlegene Datenerlerner | Forschungsarbeiten | HyperAI