Command Palette

Search for a command to run...

22 天前

R-Horizon:你的大型推理模型在广度与深度上究竟能走多远?

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

R-Horizon:你的大型推理模型在广度与深度上究竟能走多远?

摘要

近期,推理模型(如 OpenAI o1、DeepSeek-R1)在测试时扩展(test-time scaling)方面的发展,通过采用长链式思维(Chain-of-Thought, CoT)取得了显著性能提升。然而,现有基准测试主要聚焦于即时的、单阶段的任务,难以充分评估模型在复杂、长时程场景下的理解与响应能力。为弥补大型推理模型(Large Reasoning Models, LRMs)评估体系的不足,我们提出 R-HORIZON 方法,该方法通过查询组合机制,有效激发 LRMs 的长时程推理行为。基于 R-HORIZON,我们构建了一个面向长时程推理的基准测试,包含一系列具有多步依赖关系的复杂推理任务,其推理跨度覆盖较长的时序范围。通过对 LRMs 在 R-HORIZON 基准上的全面评估,我们发现,即便是当前最先进的模型,其性能在长时程任务中仍出现显著下降。深入分析表明,LRMs 的有效推理长度有限,且在多个问题之间难以合理分配思维资源(thinking budget)。针对这些局限性,我们利用 R-HORIZON 构建了用于带验证奖励的强化学习(Reinforcement Learning with Verified Rewards, RLVR)的长时程推理数据。与使用单阶段数据训练相比,采用 R-HORIZON 的 RLVR 不仅显著提升了模型在多阶段推理任务上的表现,还在标准推理任务上实现了性能提升,AIME2024 得分提高了 7.5 分。上述结果表明,R-HORIZON 是一种可扩展、可控且成本低廉的范式,能够有效增强并评估 LRMs 的长时程推理能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
R-Horizon:你的大型推理模型在广度与深度上究竟能走多远? | 论文 | HyperAI超神经