16日前
LongWriter-Zero: 強化学習を用いた超長文生成の掌握
Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

要約
大規模言語モデル(LLMs)による超長文生成は広く求められるシナリオであるが、最大生成長の制限や系列長が増加するにつれて全体的な品質が低下するという理由から、依然として大きな課題となっている。従来のアプローチでは、LongWriterなどの例のように、「教育」に依存することが一般的で、これは合成された長文出力に対する教師あり微調整(SFT)を含む。しかし、この戦略は合成SFTデータに大きく依存しており、その構築は困難かつコストがかかり、しばしば一貫性と整合性に欠け、人工的で構造的に単調になりがちである。本研究では、完全にゼロから始め、注釈付きまたは合成データに依存せずに強化学習(RL)を活用してLLMにおける超長文・高品質なテキスト生成能力の出現を促進するインセンティブベースのアプローチを提案する。R1-Zeroと同様のベースモデルから始めてRL訓練を行い、書き込み過程での計画と改良を容易にする推論を行うようにモデルを誘導する。これにより、専門的な報酬モデルを使用してLLMをより良い長さ制御、書き込み品質、および構造フォーマットへと導く。実験評価では、Qwen2.5-32Bから訓練された当社のLongWriter-Zeroモデルが伝統的なSFT手法よりも一貫して優れおり、WritingBenchやArena-Writeにおいてすべての指標で最先端の結果を達成し、DeepSeek R1やQwen3-235Bなどの100B以上のモデルを超える性能を示している。当社はデータセットとモデルチェックポイントをオープンソース化し、https://huggingface.co/THU-KEG/LongWriter-Zero-32B にて公開している。