Command Palette

Search for a command to run...

6 小时前

DR Tulu:面向深度研究的基于演化评分标准的强化学习

DR Tulu:面向深度研究的基于演化评分标准的强化学习

摘要

深度研究模型通过执行多步研究,以此生成篇幅较长且引证详实的回答。然而,大多数开源深度研究模型主要通过基于可验证奖励的强化学习(RLVR),在易于验证的短文本问答任务上进行训练,这种方法难以有效推广至现实场景中的长文本任务。针对这一问题,我们提出了“基于演化评价标准的强化学习”(Reinforcement Learning with Evolving Rubrics, RLER)。在该方法中,我们构建并维护一套在训练过程中与策略模型协同演化的评价标准;这使得评价标准能够整合模型新探索到的信息,并提供具有区分度的同策略(on-policy)反馈。基于 RLER,我们开发了 Deep Research Tulu (DR Tulu-8B),这是首个直接针对开放式、长篇深度研究任务进行训练的开源模型。在涵盖科学、医疗及通用领域的四个长篇深度研究基准测试中,DR Tulu 的表现大幅优于现有的开源深度研究模型,并能媲美甚至超越专有的深度研究系统,同时其模型参数规模更小,单次查询成本显著降低。为推动相关领域的未来研究,我们开源了所有数据、模型及代码,其中包括我们最新构建的、用于深度研究系统的基于 MCP 的智能体基础设施。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供