HyperAIHyperAI

Command Palette

Search for a command to run...

Revolutionierung des Verstärkungslernrahmens für Diffusions- große Sprachmodelle

Yinjie Wang Ling Yang Bowen Li Ye Tian Ke Shen Mengdi Wang

Zusammenfassung

Wir stellen TraceRL vor, einen trajectorienbewussten Rahmen für Verstärkungslernen (Reinforcement Learning) für Diffusions-Sprachmodelle (Diffusion Language Models, DLMs), der bevorzugte Inferenztrajektorien in die Nachtrainingsphase integriert und für verschiedene Architekturen anwendbar ist. Mit einem auf Diffusion basierenden Wertmodell, das die Trainingsstabilität verbessert, zeigen wir eine gesteigerte Leistung bei komplexen mathematischen und programmiersprachlichen Aufgaben. Darüber hinaus lässt sich TraceRL auch nutzen, um block-spezifische Modelle auf größere Blöcke anzupassen, was die Flexibilität bei der Sampling-Prozesse erhöht. Unter Verwendung von TraceRL entwickeln wir eine Reihe von state-of-the-art-Diffusions-Sprachmodellen, die als TraDo bezeichnet werden. Obwohl diese kleiner als 7B-Skalen-AR-Modelle sind, übertrifft TraDo-4B-Instruct diese konsistent bei komplexen mathematischen Schlussfolgerungsaufgaben. TraDo-8B-Instruct erreicht gegenüber Qwen2.5-7B-Instruct eine relative Genauigkeitsverbesserung von 6,1 % und gegenüber Llama3.1-8B-Instruct sogar eine Verbesserung um 51,3 % auf mathematischen Schlussfolgerungsbewertungsbögen. Durch den Einsatz von Curriculum-Learning leiten wir zudem das erste lange-CoT-DLM ab, das Qwen2.5-7B-Instruct auf MATH500 mit einer relativen Genauigkeitssteigerung von 18,1 % übertrifft. Um reproduzierbare Forschung und praktische Anwendungen zu fördern, veröffentlichen wir einen umfassenden Open-Source-Framework zur Erstellung, dem Training und der Bereitstellung von Diffusions-LLMs über verschiedene Architekturen hinweg. Der Rahmen integriert beschleunigte KV-Cache-Techniken sowie Inferenz-Engines sowohl für die Inferenz als auch für das Verstärkungslernen und beinhaltet Implementierungen verschiedener Methoden für überwachtes Feintuning und Verstärkungslernen, speziell für mathematische, programmiersprachliche und allgemeine Aufgaben. Code und Modelle: https://github.com/Gen-Verse/dLLM-RL


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp