QwenLong-L1.5:长上下文推理与记忆管理的后训练方法
QwenLong-L1.5:长上下文推理与记忆管理的后训练方法
Abstract
我们推出了QwenLong-L1.5,该模型通过系统性的后训练创新,实现了卓越的长上下文推理能力。QwenLong-L1.5的核心技术突破如下:(1)长上下文数据合成流水线:我们构建了一套系统化的数据合成框架,能够生成需要在全局分布证据上进行多跳推理的高难度任务。通过将文档解构为原子事实及其内在关联,并程序化地组合可验证的推理问题,该方法可大规模生成高质量训练数据,显著超越了传统检索类任务的范畴,真正实现了长程推理能力的构建。(2)面向长上下文训练的稳定强化学习:为解决长上下文强化学习中固有的训练不稳定性问题,我们提出任务平衡采样机制,并结合任务特异性优势估计,有效缓解了奖励偏差;同时,提出自适应熵控制策略优化(Adaptive Entropy-Controlled Policy Optimization, AEPO),动态调节探索与利用之间的权衡,显著提升了训练稳定性与性能。(3)面向超长上下文的增强型记忆架构:针对即使扩展上下文窗口也无法容纳任意长度序列的局限,我们设计了一种多阶段融合的强化学习记忆管理框架,实现单次遍历推理与迭代式基于记忆的处理无缝结合,支持超过400万token的超长任务处理。基于Qwen3-30B-A3B-Thinking架构,QwenLong-L1.5在长上下文推理基准测试中表现接近GPT-5与Gemini-2.5-Pro水平,相较其基线模型平均提升9.90分。在超长任务(100万至400万token)上,其记忆代理(memory-agent)框架相较基线代理实现9.48分的显著提升。此外,所获得的长上下文推理能力也有效迁移至通用领域,显著增强了科学推理、记忆工具使用及长对话等任务的表现。
一句话总结
通义实验室与阿里巴巴集团提出 QwenLong-L1.5,一种通过可扩展的数据合成管道、带自适应熵控制的稳定强化学习,以及迭代式基于记忆的处理,实现 GPT-5 和 Gemini-2.5-Pro 级别长上下文推理的内存增强模型,能够在高达 400 万 token 的任务上保持稳健性能,并显著提升科学推理与长对话能力。
主要贡献
- 本文针对后训练阶段长上下文推理的关键空白,提出一种可扩展的数据合成管道,通过将文档结构化分解为原子事实与关系,生成复杂的多跳推理任务,使训练基于可验证、全局分布的证据,而非简单的检索任务。
- 提出一种稳定强化学习框架,结合任务平衡采样与自适应熵控制策略优化(AEPO),缓解奖励偏差,实现对逐步增长序列的稳定训练,克服了长上下文强化学习中的关键不稳定性。
- 采用多阶段融合的强化学习训练机制,结合单次通过推理(在 256K 上下文窗口内)与迭代式记忆处理,使 QwenLong-L1.5 能够处理超过 4 百万 token 的任务,在超长任务上相比基线提升 9.48 分,并在科学推理与长对话等通用领域表现显著增强。
引言
长上下文推理对于高级大模型应用(如单次推理与多轮代理系统)至关重要,使模型能够在海量信息上执行复杂、多跳的推理。然而,以往工作主要聚焦于预训练与中期训练技术或架构改进,缺乏成熟、端到端的后训练解决方案来应对长上下文任务。现有方法常依赖“针在 haystack 中”式检索或单跳 RAG 等简单数据,缺乏对全球分布证据进行鲁棒推理所需的复杂性。本文提出 QwenLong-L1.5,一种全面的后训练方案,通过三大核心贡献解决上述局限:基于结构化事实生成复杂多跳推理任务的系统化、可扩展数据合成管道;结合任务平衡采样与自适应熵控制策略优化(AEPO)的新型强化学习框架,以稳定长序列训练;以及融合单次推理与迭代记忆更新的内存管理架构,突破模型上下文窗口限制。该集成方法在长上下文基准上实现显著性能提升,并泛化至数学、科学、对话等多样化领域。
数据集
- QwenLong-L1.5 的数据集基于多源长文档语料库构建,涵盖代码仓库、学术文献、专业文档、通用知识内容及模拟多轮对话,经筛选后共包含 82,175 篇高质量文档,约 92 亿 token。
- 作者利用大规模 LLM 基础的合成管道,从该语料库中生成 42,700 个初始长上下文问答对,聚焦于数值计算、多跳推理、时间分析、观点分析、上下文内长序列学习、因果分析及假设场景等复杂推理任务。
- 合成过程包含三个关键步骤:(1) 借助结构化数据与多智能体自演化框架生成具有挑战性的 QA 对;(2) 通过插入无关文档扩展上下文长度以增加难度;(3) 应用严格验证检查——知识锚定与上下文鲁棒性——确保答案仅依赖于所提供上下文,并在扰动下保持稳定。
- 经过滤波、去重与测试集去污染后,最终训练集包含 14,100 个高质量样本,相比 QwenLong-L1.5 的规模与多样性显著提升。
- 数据集强调长上下文复杂性,大量样本超过 64K token,支持对高难度推理任务的训练。
- 训练数据以针对强化学习优化的混合比例使用,样本覆盖多种问题类型,确保不同推理模态的均衡暴露。
- 合成阶段战略性地在上下文中加入无关内容,以模拟真实世界信息检索挑战;同时显式构建问题类型、领域与推理复杂度等元数据,支持训练与评估。
方法
作者采用多阶段训练范式,系统性提升 QwenLong-L1.5 的长上下文推理能力,基于 Qwen3-30B-A3B-Thinking 基础模型。整体训练流程旨在逐步扩展模型处理日益复杂与长序列输入的能力,最终形成统一架构,兼具单次全上下文推理与迭代式记忆处理能力。框架始于三个全上下文强化学习(RL)阶段,每个阶段均旨在扩展模型的输入与输出长度能力。第一阶段最大输入为 32K token,最大输出为 12K token;第二阶段为 60K 输入与 20K 输出;第三阶段为 120K 输入与 50K 输出。这种渐进式长度扩展设计可避免因突然过渡至长上下文模式而引发的训练不稳定性。在阶段间过渡时,采用基于难度感知的回溯采样策略,根据下一阶段的输入输出长度设置筛选训练数据,确保任务复杂度的平滑演进。

完成第三阶段全上下文 RL 后,模型进入专门的内存管理训练阶段。通过在 QwenLong-L1.5-RL-Stage3 模型上继续强化学习训练,构建一个专用于记忆处理的专家模型。为在不损害全上下文推理能力的前提下整合该能力,作者采用模型融合技术。使用基于谱聚类的专家(SCE)算法,将专家记忆模型与 QwenLong-L1.5-RL-Stage3 模型进行融合。该融合过程生成一个单一、连贯的模型,兼具长上下文推理与内存管理能力。训练流程的最后一步是第四阶段全上下文 RL,对融合模型再次训练,以优化整体性能并确保双能力的无缝集成。该多阶段融合范式使模型可扩展至超长上下文,内存管理框架通过将输入分解为可管理的块并迭代更新紧凑记忆表示,实现对超过 4 百万 token 序列的处理。

长上下文推理能力的核心建立在稳健的强化学习框架之上。作者将任务建模为策略优化问题,目标是最大化评估生成响应质量的奖励函数。为应对标准 PPO 方法在长输入上因二次注意力复杂度导致的计算不可行性,采用分组相对策略优化(GRPO)。该方法通过组内奖励 z 分数归一化消除对独立价值网络的需求,即通过归一化一组候选响应的序列级奖励来估计优势。训练目标进一步通过将 KL 正则化系数设为零,并在单梯度更新的严格在线策略设置下运行,简化目标并增强稳定性。为确保训练稳定高效,作者实现多项关键创新。任务平衡采样用于防止分布漂移,确保每个训练批次中五类主要任务类型(选择题、文档多跳推理、通用阅读理解、对话记忆、语料库级数值计算)的样本数量相等。该策略辅以任务特定优势估计,即在每类任务内计算奖励标准差,提供更准确、隔离的优势信号,缓解噪声样本带来的偏差,并适应不同任务间独特的奖励分布。

为应对长上下文任务中正确与错误推理路径高度相似导致的训练不稳定性,作者引入一种新颖的负梯度裁剪策略。该方法对错误响应产生的部分负梯度进行裁剪,这些梯度通常由高熵 token 产生,导致大梯度与优化方差增加。裁剪基于策略熵进行引导,将高熵 token 或序列识别为梯度降低的候选对象。这有助于通过防止对探索行为的过度惩罚来稳定训练过程,对模型纠正错误路径至关重要。在此基础上,作者提出自适应熵控制策略优化(AEPO)算法。AEPO 根据当前批次级熵动态屏蔽具有负优势的 rollout 序列。若熵超过预设上限,则屏蔽所有负样本,有效执行优势加权的在线拒绝采样以降低熵;反之,若熵低于下限,则重新引入负梯度以防止熵坍塌并维持探索。该动态控制机制提供了一种稳定有效的探索与利用平衡方式,使模型可在不性能退化的情况下扩展强化学习训练步数。
实验
- 采用基于合成数据与 AEPO 算法的多阶段强化学习后训练,验证了长上下文推理能力的提升;消融实验显示,相比基线使用 GRPO 提升平均分 3.27,相比 Qwen3-30B-A3B-Thinking-2507 提升 7.47。
- 在 MRCR 上达到 SOTA 水平(82.99),在 CorpusQA 上取得强结果(81.25),在关键长上下文基准上超越 GPT-5 与 Gemini-2.5-Pro 等旗舰模型。
- 在 LongBench-V2、Frames 与 DocMath 上,QwenLong-L1.5-30B-A3B 平均得分分别为 55.27、74.76 与 66.26,分别优于基线 +6.16、+4.49 与 +4.00 分。
- 展现出显著泛化能力:在 LongMemEval(对话记忆)上提升 +15.60,Memory-KV(代理记忆)上 +5.80,AIME25 上 +3.65,表明具备可迁移的信息整合能力。
- 实现稳健的超长上下文性能:在 MRCR(512K∼1M)上得分为 22.53,在 CorpusQA(4M)上得分为 14.29,优于全上下文模型与基于代理的方法在极端规模下的表现。
- 多阶段训练进展显示持续提升,全上下文 RL Stage-1 带来最大初始增益,记忆 RL 与模型融合则实现全上下文与记忆代理能力的平衡。
作者采用多阶段强化学习框架增强 Qwen3-30B-A3B-Thinking 的长上下文推理能力,多个基准测试结果显著提升。结果显示,最终模型 QwenLong-L1.5-30B-A3B 平均得分为 71.82,相比基线提升 9.90 分,尤其在 MRCR 与 CorpusQA 等需复杂信息整合的任务上表现突出。

作者在 Qwen3-4B-Thinking-2507 上使用 AEPO 算法提升长上下文推理能力,消融实验显示引入 AEPO 后平均得分从 52.79 提升至 59.36。结果表明,AEPO 在所有评估任务上均提升性能,尤其在 MRCR 与 CorpusQA 上分别提升 7.03 与 15.31 分。

作者对比 Qwen3-30B-A3B-Thinking-2507 与 QwenLong-L1.5-30B-A3B 在通用、代理记忆与对话记忆基准上的表现。结果显示,QwenLong-L1.5-30B-A3B 在多数任务上得分更高,尤其在 AIME25(+3.65)、GPQA-Diamond(+0.90)、Memory-KV(+5.80)与 LongMemEval(+15.60)上提升显著,表明长上下文训练在不显著损害其他领域性能的前提下,增强了通用推理与记忆能力。

作者对比 QwenLong-L1 与 QwenLong-L1.5,显示后者使用了显著更大且更丰富的训练数据集,包括合成数据及代码仓库、对话数据等新增领域。该扩展使最大输入长度从 59,563 提升至 119,932 token,实现翻倍以上增长,同时平均输入长度也增加,表明对更长、更复杂上下文的更强处理能力。

作者通过消融实验评估不同优化策略对 AEPO 算法的影响。结果显示,结合任务平衡采样、批次标准化与任务批次标准化可达到最高平均分 58.62,表明这些技术相比基线在多个基准上显著提升性能。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.