Command Palette

Search for a command to run...

12 天前

LoongRL:面向长上下文的高级推理强化学习

Siyuan Wang Gaokai Zhang Li Lyna Zhang Ning Shang Fan Yang Dongyao Chen Mao Yang

LoongRL:面向长上下文的高级推理强化学习

摘要

长上下文推理对大语言模型至关重要。尽管强化学习(RL)通过在思维链(chain-of-thought)中引入“顿悟”时刻,能够提升短上下文下的推理能力,但长上下文推理所要求的高级思维模式仍 largely 未被探索,且高难度的强化学习数据极为稀缺。本文提出 LoongRL,一种面向高级长上下文推理的数据驱动型强化学习方法。LoongRL 的核心是 KeyChain,一种合成方法,通过在大量干扰文档中插入包含 UUID 的链式结构,将原本简短的多跳问答任务转化为高难度的长上下文任务,使真实问题隐藏在大量无关信息之中。解决此类任务要求模型能够逐步追踪正确路径,识别出真实问题,检索相关事实,并在此基础上进行推理以得出正确答案。在 KeyChain 数据上进行的强化学习训练,促使模型涌现出“规划—检索—推理—复核”这一新型推理模式,该模式的泛化能力远超训练时的上下文长度。在 16K 上训练的模型,可有效解决 128K 长度的任务,且无需承担高昂的全长度强化学习回放成本。在 Qwen2.5-7B 和 14B 模型上,LoongRL 分别将长上下文多跳问答的准确率提升了 23.5% 和 21.1% 的绝对值。由此产生的 LoongRL-14B 模型达到 74.2 的得分,已可与更大型的前沿模型(如 o3-mini,74.5;DeepSeek-R1,74.9)相媲美。此外,该方法还显著提升了长上下文检索能力,成功通过全部 128K 长度的“针尖藏于草堆”压力测试,并完整保留了短上下文推理能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供