HyperAI超神经

QwenLong-L1:基于强化学习的长上下文大规模推理模型

Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
发布日期: 5/26/2025
QwenLong-L1:基于强化学习的长上下文大规模推理模型
摘要

近期的大规模推理模型(LRMs)通过强化学习(RL)展示了强大的推理能力。这些改进主要体现在短上下文推理任务中。相比之下,将LRMs扩展到能够有效处理和推理长上下文输入的强化学习任务仍然是一个亟待解决的关键挑战。为了弥合这一差距,我们首先形式化了长上下文推理强化学习的范式,并识别出训练效率低下和优化过程不稳定等关键问题。为了解决这些问题,我们提出了QwenLong-L1框架,该框架通过逐步上下文扩展将短上下文LRMs适应到长上下文场景中。具体而言,我们利用预热监督微调(SFT)阶段建立一个稳健的初始策略,随后采用基于课程的分阶段强化学习技术来稳定策略演化,并通过难度感知回顾采样策略激励策略探索。在七个长上下文文档问答基准测试中的实验表明,QwenLong-L1-32B在性能上超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰级LRMs,达到了与Claude-3.7-Sonnet-Thinking相当的水平,在当前最先进的LRMs中表现出领先性能。这项工作推动了能够在信息密集环境中进行稳健推理的实用长上下文LRMs的发展。