Command Palette

Search for a command to run...

1 个月前

Fathom-DeepResearch:解锁长时程信息检索与综合以赋能SLMs

Shreyas Singh Kunal Singh Pradeep Moturi

Fathom-DeepResearch:解锁长时程信息检索与综合以赋能SLMs

摘要

工具集成推理已成为推动智能体应用发展的关键方向。其中,DeepResearch智能体因其在复杂、开放性信息检索任务中表现出色而受到广泛关注。本文提出Fathom-DeepResearch,一个由两个专用模型构成的智能体系统。第一个模型是Fathom-Search-4B,它基于Qwen3-4B训练而成,专为基于证据的调查任务优化,支持实时网络搜索与定向网页查询。其训练融合了三项关键技术改进:(i)DUETQA,一个通过多智能体自对弈生成的5000样本数据集,强制要求严格的网络搜索依赖性与异构来源的锚定;(ii)RAPO,GRPO的零开销扩展,通过课程剪枝、奖励感知的优势缩放以及按提示词独立回放缓冲区,稳定了具有可验证奖励的多轮强化学习;(iii)一种可调控的逐步骤奖励机制,能够根据认知行为与边际效用对每个工具调用进行分类,从而实现对搜索轨迹广度、深度与时间跨度的显式控制。这些改进使得在必要时可可靠地将工具调用扩展至20次以上。第二个模型是Fathom-Synthesizer-4B,同样基于Qwen3-4B训练,负责将多轮DeepSearch的交互轨迹转化为结构化、引用密集的DeepResearch报告,实现全面的信息整合。在DeepSearch基准测试(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)以及DeepResearch-Bench上的评估表明,该系统在开放权重类别中达到当前最优性能,并展现出对多样化推理任务(包括HLE、AIME-25、GPQA-Diamond和MedQA)的强大泛化能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供