HyperAIHyperAI

Command Palette

Search for a command to run...

LongWriter-Zero: Beherrschung der Generierung von ultralangen Texten durch Reinforcement Learning

Yuhao Wu Yushi Bai Zhiqiang Hu Roy Ka-Wei Lee Juanzi Li

Zusammenfassung

Die Ultra-Lange Generierung durch große Sprachmodelle (LLMs) ist ein weit verbreiteter Anwendungsfall, bleibt jedoch aufgrund der maximalen Generierungslänge und der generellen Qualitätsabnahme mit zunehmender Sequenzlänge eine erhebliche Herausforderung. Vorherige Ansätze, wie zum Beispiel LongWriter, basieren in der Regel auf „Unterricht“, der synthetischen langen Textausgaben mittels überwachter Feinabstimmung (SFT) beibringt. Diese Strategie hängt jedoch stark von synthetischen SFT-Daten ab, die schwierig und teuer zu erstellen sind, oft Kohärenz und Konsistenz vermissen lassen und tendenziell zu künstlich und strukturell eintönig sind. In dieser Arbeit schlagen wir einen anreizbasierten Ansatz vor, der vollständig von Grund auf beginnt und weder annotierte noch synthetische Daten verwendet. Wir nutzen das Verstärkungslernen (RL), um die Entwicklung ultra-langer, hochwertiger Textgenerierungsfähigkeiten in LLMs zu fördern. Die RL-Trainingsphase startet von einem Basismodell aus, ähnlich wie bei R1-Zero, und leitet es an, während des Schreibprozesses Planung und Verbesserung durch Argumentation zu betreiben. Um dies zu unterstützen, setzen wir spezialisierte Belohnungsmodelle ein, die das LLM zur besseren Längensteuerung, Schreibqualität und strukturellen Formatierung führen. Experimentelle Auswertungen zeigen, dass unser LongWriter-Zero-Modell, trainiert vom Qwen2.5-32B, bei langen Schreibaufgaben konsequent traditionelle SFT-Methoden übertrifft und den aktuellen Stand der Technik in allen Metriken auf WritingBench und Arena-Write erreicht oder sogar übertreffen kann. Es übertrifft dabei sogar Modelle mit mehr als 100 Milliarden Parametern wie DeepSeek R1 und Qwen3-235B. Wir stellen unsere Daten und Modellcheckpoints unter https://huggingface.co/THU-KEG/LongWriter-Zero-32B öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LongWriter-Zero: Beherrschung der Generierung von ultralangen Texten durch Reinforcement Learning | Paper | HyperAI