vor 16 Tagen

LongWriter-Zero: Beherrschung der Generierung von ultralangen Texten durch Reinforcement Learning

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Abstract

Die Ultra-Lange Generierung durch große Sprachmodelle (LLMs) ist ein weit verbreiteter Anwendungsfall, bleibt jedoch aufgrund der maximalen Generierungslänge und der generellen Qualitätsabnahme mit zunehmender Sequenzlänge eine erhebliche Herausforderung. Vorherige Ansätze, wie zum Beispiel LongWriter, basieren in der Regel auf „Unterricht“, der synthetischen langen Textausgaben mittels überwachter Feinabstimmung (SFT) beibringt. Diese Strategie hängt jedoch stark von synthetischen SFT-Daten ab, die schwierig und teuer zu erstellen sind, oft Kohärenz und Konsistenz vermissen lassen und tendenziell zu künstlich und strukturell eintönig sind. In dieser Arbeit schlagen wir einen anreizbasierten Ansatz vor, der vollständig von Grund auf beginnt und weder annotierte noch synthetische Daten verwendet. Wir nutzen das Verstärkungslernen (RL), um die Entwicklung ultra-langer, hochwertiger Textgenerierungsfähigkeiten in LLMs zu fördern. Die RL-Trainingsphase startet von einem Basismodell aus, ähnlich wie bei R1-Zero, und leitet es an, während des Schreibprozesses Planung und Verbesserung durch Argumentation zu betreiben. Um dies zu unterstützen, setzen wir spezialisierte Belohnungsmodelle ein, die das LLM zur besseren Längensteuerung, Schreibqualität und strukturellen Formatierung führen. Experimentelle Auswertungen zeigen, dass unser LongWriter-Zero-Modell, trainiert vom Qwen2.5-32B, bei langen Schreibaufgaben konsequent traditionelle SFT-Methoden übertrifft und den aktuellen Stand der Technik in allen Metriken auf WritingBench und Arena-Write erreicht oder sogar übertreffen kann. Es übertrifft dabei sogar Modelle mit mehr als 100 Milliarden Parametern wie DeepSeek R1 und Qwen3-235B. Wir stellen unsere Daten und Modellcheckpoints unter https://huggingface.co/THU-KEG/LongWriter-Zero-32B öffentlich zur Verfügung.