HyperAIHyperAI

Command Palette

Search for a command to run...

GoLongRL:面向能力的多任务对齐长上下文强化学习

摘要

标题:摘要:我们提出了 GoLongRL,这是一种完全开源、以能力为导向的长上下文可验证奖励强化学习(RLVR)后训练方案。现有的长上下文强化学习方法通常将数据构建视为设计日益复杂的检索路径的问题,导致任务覆盖范围同质化,且奖励公式未能充分反映实际的长上下文需求。我们的工作提供了两项贡献。(1)以能力为导向的数据构建与完全开源发布。我们公开发布了包含 23K 个 RLVR 样本的数据集、完整的构建流程以及所有训练代码。在长上下文能力分类法的指导下,该数据集涵盖 9 种任务类型,每种任务类型均配有其天然评估指标。数据集由来自既定语料库的精选开源样本,以及从真实源文档(如书籍、学术论文和多轮对话)生成的问答对合成的样本组成。在相同的 vanilla GRPO 设置下,仅凭我们的数据集就优于闭源的 QwenLong-L1.5 数据集。此外,在此数据上训练的 Qwen3-30B-A3B 模型在长上下文性能方面与 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507 相当,这表明更广泛的覆盖范围和更高的奖励多样性显著有利于长上下文能力的提升。(2)TMN-Reweight 用于异构多任务优化。为了解决异构奖励带来的优化挑战,我们提出了 TMN-Reweight,它结合了用于跨任务奖励尺度对齐的任务级均值归一化,以及用于更可靠优势估计的难度自适应加权。TMN-Reweight 进一步提升了相对于 vanilla GRPO 的平均性能,并在各项报告评估中保持或提升了通用能力。

一句话总结

作者提出了 GoLongRL,这是一个完全开源的长上下文强化学习后训练框架,支持可验证奖励。该框架整合了涵盖九种能力驱动任务类型的 23K 样本数据集,并与 TMN-Reweight 相结合。TMN-Reweight 是一种多任务优化策略,采用任务级均值归一化和难度自适应加权来对齐异构奖励,使 Qwen3-30B-A3B 模型在保持基础 GRPO 的通用能力的同时,其长上下文性能可与 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507 相媲美。

核心贡献

  • 本文引入了 GoLongRL,这是一个完全开源的能力导向型数据集与构建流程,包含 23,000 个长上下文 RLVR 样本。在九类任务分类的指引下,该数据集整合了从真实文档中精心筛选与合成的问答对,以确保广泛的任务覆盖范围与奖励多样性。
  • 本文提出了 TMN-Reweight,这是一种训练策略,将任务级均值归一化与难度自适应加权相结合,以解决跨任务奖励尺度不一致及难度引发的优势值偏差问题。该机制对齐了异构奖励分布,并在策略更新期间实现了更可靠的优势值估计。
  • 基于该发布数据集与优化方法训练的模型,其长上下文性能可与 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507 相媲美。具体而言,在标准 GRPO 设置下,基于此数据训练的 Qwen3-30B-A3B 变体超越了闭源基线模型 QwenLong-L1.5,同时保留了通用能力。

引言

随着大语言模型在检索增强生成与 Agent 工作流等实际领域中的扩展,对数万个 tokens 进行有效推理已成为后训练优化的关键瓶颈。现有的长上下文强化学习方法通常依赖狭窄的检索聚焦数据集以及 GRPO 等标准算法,难以应对异构的多任务目标。GRPO 中的逐提示归一化会扭曲不同提示难度下的优势值估计,而混合使用具有不同数值尺度的评估指标则会导致梯度失衡与训练轨迹不稳定。为了解决这些局限,作者提出了 GoLongRL,这是一个能力导向型框架,将完全开源的涵盖九种不同任务类型的 23,000 样本数据集与一种名为 TMN-Reweight 的新型优化策略相结合。通过应用任务级均值归一化与难度自适应加权,该方法对齐了跨任务奖励尺度并生成更可靠的优势值估计,在保持通用推理能力的同时实现了显著的长上下文性能提升。

数据集

  • 数据集构成与来源

    • 作者构建了一个包含 22,965 个样本的数据集,涵盖 9 种能力导向型任务,上下文长度范围从 0.1K 到 256K tokens。
    • 数据来源于两个互补的数据池,包含约 14,000 个精心筛选的开源样本,以及 9,000 个完全基于真实文档生成的合成问答对。
    • 源材料包括 Project Gutenberg 书籍、arXiv CC0 学术论文、PMC 生物医学文章、法律文件、财务报告,以及来自 BEAM 和 Oolong 的多轮对话。
  • 各子集关键细节

    • 任务 T1 至 T4 构成训练主干,由于源材料充足,占数据集总量的 90% 以上。
    • 任务 T6 至 T9 占比不足 4%,鉴于天然支持文档稀缺,作者优先保证质量而非数量。
    • 合成数据轨道 heavily 聚焦于任务 T2,该任务采用多项选择题格式以实现可靠的自动验证。子类别包括证据整合、规则归纳以及需要超过 50 轮对话和 30K tokens 的对话记忆追踪。
    • 开源样本经过兼容性过滤,以确保标注与目标奖励格式对齐。例如,任务 T1 仅保留短引用片段以防止精确匹配产生歧义。
    • 合成样本使用模型通过率校准为难度层级,得出大约 3:6:1 的简单到中等再到困难的比例。在不同模型规模下通过率持续偏低的样本被视为噪声数据而被剔除。
  • 数据使用与训练配置

    • 作者将该数据集用于带可验证奖励的长上下文强化学习,为每个任务分配其天然评估指标作为奖励函数,以保持语义保真度。
    • 训练数据混合故意采用非均匀分布,强调基础检索与推理能力,同时为高级任务保留稀疏但高质量的样本。
    • 在迭代优化期间,数据集通过 13-gram 重叠检查与基准查询进行过滤,以防止数据污染。
    • 作者在训练过程中持续评估薄弱环节,剔除表现出奖励黑客攻击或答案模糊的样本,并为表现不佳的任务补充全新合成的问答对。
  • 处理、元数据与结构细节

    • 文档经过 token 化处理后被路由至按长度划分的存储桶,较短序列分配给 DeepSeek V3.2,较长序列分配给 Gemini-2.5-Pro 用于问题生成。
    • 作者通过强制执行统一结构来标准化输出元数据,该结构以 [Answer] 标识符开头,后接特定任务的格式要求,例如排名任务的有序列表或数值推理的可解析表达式。
    • 合成提示词需要生成合理的干扰项、可通过文本验证的正确选项以及明确的设计理由,以确保评估的稳健性。
    • 最终数据集经历多次版本迭代,每个周期先在 8K 随机子集上进行验证,随后再扩展至全模型训练。

方法

作者利用一个多阶段框架构建能力导向型长上下文强化学习(RL)数据集,该框架整合了开源数据与合成数据。整体流程始于源语料库,通过基于元数据的过滤分离出按任务分类的文档。随后,这些文档经过特定任务的筛选标准以生成合格样本,为面向任务的过滤与分配阶段奠定基础。该阶段将每份文档分配至九种不同任务类型之一,从而实现多样化训练数据集的构建。

数据集创建的核心在于 P3. 长上下文样本构建阶段,该阶段通过两条并行轨道处理过滤后的文档:开源轨道与合成轨道。开源轨道涉及兼容性过滤与奖励格式标准化,确保不同数据源之间的一致性。合成轨道生成新的长上下文与超长上下文,随后用于创建问答(QA)对。该生成过程采用 DeepSeek-V3.2 和 Gemini-2.5-Pro 等模型进行初始 QA 对生成,随后对其质量进行验证。

框架图显示,QA 对需经过两阶段质量过滤流程。第一阶段为 QA 对验证,由 Gemini-2.5-Pro 等模型进行严格评估,检查答案唯一性、干扰项质量、幻觉、任务合规性及语言一致性。未能通过验证的样本将被丢弃。第二阶段(两阶段质量过滤)进一步使用 Qwen3-4B 等模型评估剩余样本,并根据响应质量将其分类为简单、中等、困难、未解决或丢弃等级别。经过过滤的数据集随后在 P4. 迭代数据集优化阶段通过迭代流程进行精炼,该流程包含 13-gram 重叠去污染、基准诊断与失败模式诊断等步骤。最终输出为一个包含 22,965 个样本的能力导向型 RLVR 数据集,旨在支持稳健且稳定的多任务训练。

训练过程本身构建于组相对策略优化(GRPO)框架之上,该框架作为基础 RL 算法。与传统 PPO 不同,GRPO 通过奖励的组级 z-score 归一化来估计优势值,从而无需单独的估值网络。对于每个提示词,系统采样一组候选响应,并使用该组的均值与标准差对其奖励进行归一化以计算响应优势值。策略通过最大化包含这些优势值的裁剪代理目标函数进行更新。为解决标准 GRPO 公式中的偏差问题,作者采用了 Dr. GRPO,该方法移除了逐提示标准差归一化以缓解题目难度偏差,并将长度归一化替换为全局常数以降低响应长度偏差。然而,此方法在多任务设置中可能导致跨任务尺度差异。

为解决上述问题,作者引入了 TMN-Reweight,这是一种用于优势值估计的两步法。第一步为任务级均值归一化,使用任务级聚合标准差替换逐提示标准差,该值计算为同一任务内各提示标准差的均方根。此操作在保留各任务内部相对优势幅度的同时,降低了跨任务尺度差异。第二步为难度自适应加权,使用平滑通过率估计提示难度,并应用指数加权以调整学习信号。该加权根据归一化优势值的符号非对称地应用,以放大困难提示上罕见成功轨迹的梯度,并衰减简单提示的梯度以防止熵崩溃。这种四象限梯度重分配机制确保模型在广泛难度范围内有效学习,同时不会破坏优化过程的稳定性。

实验

上下文要求:完整 指标:准确率

输出格式: 首先输出 [Answer] 标识符,然后输出答案选项字母(A/B/C/D),不包含任何其他内容。

[Answer] C

  1. B.4.3. T2-c:长程实体与承诺追踪

在扩展的对话或叙事上下文中追踪实体状态与承诺。

T2-c:长程实体与承诺追踪

主任务:对话记忆与长周期追踪 追踪并响应对话历史。

子任务:长程实体与承诺追踪 在全局上下文中追踪实体状态。 上下文要求:完整 指标:准确率

输出格式: 首先输出 [Answer] 标识符,然后输出 A/B/C/D/E,不包含任何其他内容。

[Answer] B

  1. B.6. T4:数值提取与定量推理

T4 评估模型在财务报表与报告等结构化文本中执行数值计算的能力。奖励函数采用 math_verify。子任务提示词涵盖多源一致性验证与单源定向聚合。

  1. B.6.3. T4-c:过程状态追踪

在长过程叙事中追踪实体状态演变。

T4-c:过程状态追踪

主任务:结构化与数值推理 结构化文本中的数值计算。

子任务:长上下文过程状态追踪 在全局上下文中追踪实体状态演变。 上下文要求:完整 指标:math_verify

输出格式: 首先输出 [Answer] 标识符,然后逐行输出追踪到的状态,不包含任何其他内容。

[Answer] state_1 state_2

  1. B.8. T6:片段级结构化匹配与归纳

T6 评估模型在片段级执行聚类、规则归纳与结构化匹配的能力。奖励函数为子串精确匹配(SubEM)。该任务涵盖大规模文档聚类、基于示例的规则归纳及相关模式识别子任务。

  1. B.9. T7:维度量化检索与分级排序

T7 评估模型检索内容并按相关性或量化维度对结果排序的能力。奖励函数为 NDCG。

  1. B.10. T8:序列重构与排序

T8 评估模型恢复时间、逻辑或基于频率排序的能力。奖励函数为成对准确率。

  1. B.11. T9:长文档摘要

T9 评估模型在指定约束下生成抽象摘要的能力。奖励函数为 ROUGE-L。

  1. C. 与 QwenLong-L1.5 的评估对齐

为确保与 QwenLong-L1.5 的公平比较,本文验证评估流程能否准确复现原论文报告的结果。表 9、表 10 与表 11 展示了已发布分数,并在每个数值旁以角标形式标注 Δ=ours\Delta = \text{ours}Δ=ours--published。微小范围内的偏差以灰色显示;较大偏差以橙色高亮。在大多数基准测试中,偏差较小,证实评估协议与 QwenLong-L1.5 高度对齐。

表格说明 | 针对 QwenLong-L1.5 论文的评估协议对齐情况。每个单元格报告已发布分数,并以角标形式标注 Δ\DeltaΔ = ours – published。

  1. D. 训练超参数

表格总结了 RL 训练中使用的关键超参数。所有配置在两种模型规模间共享。

表格说明 | 通用推理基准上的评估协议对齐情况。每个单元格报告已发布分数,并以角标形式标注 Δ\DeltaΔ = ours – published。

表格说明 | Agent 与对话记忆基准上的评估协议对齐情况。每个单元格报告已发布分数,并以角标形式标注 Δ\DeltaΔ = ours – published。

表格说明 | GoLongRL 的训练超参数。

作者将提出的 GoLongRL 方法与 QwenLong-L1.5 及其他基线模型在长上下文基准上进行对比,采用受控实验设置以隔离数据与算法改进的影响。结果表明,GoLongRL 在多样化推理任务中实现了更高的平均性能与更好的任务平衡,在聚合密集型基准上取得显著增益。该方法还展现出通用能力的保持以及对更长上下文强大的外推能力。与 QwenLong-L1.5 及其他基线模型相比,GoLongRL 在长上下文基准上实现了更高的平均性能与更好的任务平衡。该方法在 CorpusQA 等聚合密集型任务中表现出显著改进,同时在检索导向型任务中保持强劲性能。GoLongRL 保留了通用推理能力,并在更长上下文长度上展现出强大的外推能力。

作者使用 Qwen3-30B 与 QwenLong-L1.5 模型评估了长上下文强化学习方法 GoLongRL 对通用推理与记忆能力的影响。结果表明,GoLongRL 在提升记忆与长程上下文任务性能的同时,保留了通用推理技能。评估证实该方法在标准基准上与前序结果保持一致,因协议对齐导致的分数存在微小偏差。GoLongRL 在提升记忆与长程上下文任务性能的同时,保留了通用推理能力。该方法在标准基准上与前序结果保持一致,分数存在微小偏差。Qwen3-30B 与 QwenLong-L1.5 模型均在记忆与长程依赖处理方面展现出改进。

作者对比了各模型在长上下文推理基准上的性能,重点聚焦 Qwen3 系列。结果表明,GoLongRL 模型(尤其是 4B 规模)在多项任务中实现了具有竞争力或更优的性能,在聚合密集型基准上取得显著改进。评估涵盖旗舰模型与轻量级模型,GoLongRL-4B 与 GoLongRL-30B 模型在检索与推理等特定领域展现出强劲表现。在 MRCR 与 CorpusQA 等多项基准上,GoLongRL-4B 取得了轻量级模型中的最高平均分。与基线模型相比,GoLongRL-30B 在检索与推理任务中表现出显著改进,尤其在 MRCR 与 CorpusQA 上。GoLongRL 模型的性能与 Qwen3 系列其他先进模型相当或更优,表明其长上下文训练有效。

作者使用 4B 与 30B 两种模型规模评估 GoLongRL 框架在长上下文任务上的性能,并与基线模型进行对比。结果表明,GoLongRL 在不同上下文长度下均提升了 MRCR 与 CorpusQA 任务的性能,其中 30B 模型得分高于 4B 模型。改进在两种模型规模中保持一致,表明该方法具备良好的可扩展性。与基线模型相比,GoLongRL 在不同上下文长度下提升了 MRCR 与 CorpusQA 任务的性能。在 MRCR 与 CorpusQA 任务上,30B 模型表现优于 4B 模型,进一步印证了该方法的可扩展性。在两种模型规模下,GoLongRL 在 MRCR 与 CorpusQA 任务上均取得了高于基线模型的分数。

作者评估了 GoLongRL 框架在两种模型规模下对通用推理、Agent 记忆与对话记忆任务的影响。结果表明,提出的 TMN-Reweight 算法在大多数基准上提升了性能,尤其在对话记忆领域,同时保持或增强了通用推理能力。改进在两种模型尺寸中保持一致,30B 模型通常取得高于 4B 模型的分数。TMN-Reweight 在两种模型规模下均提升了通用推理与记忆任务的性能。最大改进体现在对话记忆领域,两种模型均获得 13.6 分的显著增长。在所有评估基准上,30B 模型的表现始终优于 4B 模型。

作者使用 4B 与 30B 规模的 Qwen3 模型,在长上下文推理、记忆与对话基准上将 GoLongRL 框架及其 TMN-Reweight 算法与既定基线进行对比评估。这些实验验证了该方法在提升聚合密集型与长程依赖任务性能的同时,成功保留通用推理能力。定性结果表明,该方法始终优于基线模型,对扩展上下文展现出强大的外推能力,并在不同模型规模下实现有效扩展。总体而言,本研究证实 GoLongRL 在记忆保持与复杂推理方面带来了稳健的改进,且未损害基础语言理解能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供