HyperAI超神经
16 days ago

LongWriter-Zero:通过强化学习掌握超长文本生成

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
LongWriter-Zero:通过强化学习掌握超长文本生成
摘要

大型语言模型(LLMs)的超长生成是一个广泛需求的场景,但由于其最大生成长度限制以及随着序列长度增加整体质量下降的问题,这一任务仍然面临重大挑战。以往的方法,如LongWriter,通常依赖于“教学”,即在合成的长篇输出上进行监督微调(SFT)。然而,这种策略严重依赖合成的SFT数据,这些数据构建困难且成本高昂,往往缺乏连贯性和一致性,并且过于人工化和结构单一。在本研究中,我们提出了一种基于激励的方法,该方法从零开始,完全不依赖任何标注或合成数据,利用强化学习(RL)促进LLMs在超长高质量文本生成方面的能力涌现。我们从基础模型开始进行RL训练,类似于R1-Zero的方法,引导模型在写作过程中进行有助于规划和优化的推理。为此,我们采用了专门设计的奖励模型,以指导LLM改进长度控制、写作质量和结构格式。实验评估表明,我们的LongWriter-Zero模型(基于Qwen2.5-32B训练)在长篇写作任务中始终优于传统的SFT方法,在WritingBench和Arena-Write的所有指标上均取得了最先进的结果,并且超越了诸如DeepSeek R1和Qwen3-235B等超过100B参数的模型。我们已将数据和模型检查点开源至 https://huggingface.co/THU-KEG/LongWriter-Zero-32B。