Command Palette
Search for a command to run...
Ziyi Xia Kun Luo Hongjin Qian Zheng Liu

摘要
大型语言模型(LLMs)正被寄予更高期望,不再局限于回答简单的事实性问题,而是需要完成复杂的“深度研究”任务——这类任务要求将问题分解为子问题、协调多步推理,并综合来自多样化来源的证据。我们首次将具有可验证答案的深度研究任务形式化为分层约束满足问题(Hierarchical Constraint Satisfaction Problems, HCSPs),其本质区别于单一约束、多跳或扁平化的约束满足问题(CSP)形式。然而,现有基准测试(如Natural Questions、HotpotQA)难以捕捉此类复杂性,而近期的合成数据集往往引入捷径推理、知识泄露问题,或缺乏足够的结构深度。为填补这一空白,我们提出了InfoSeek——一个可扩展的框架,用于合成复杂的深度研究任务。InfoSeek采用双智能体系统,从大规模网页中递归构建“研究树”,将中间节点模糊化为有效的子问题,并将这些树转化为需要完整遍历层级结构才能解答的自然语言问题。该框架具备快速扩展能力,可生成超过5万条训练样本、一个精心筛选的测试集,以及通过拒绝采样生成的推理轨迹。实验表明,基于InfoSeek训练的模型在多个任务上持续优于强基线模型。在一项具有挑战性的基准测试BrowseComp-Plus上,使用InfoSeek优化的3B参数量LLM已超越参数量更大的32B模型及轻量级商用API(如Gemini 2.5 Flash),其性能接近更强的商用API(如Gemini 2.5 Pro)。此外,InfoSeek通过保留中间推理步骤、检索标签等元信息,进一步支持高级优化策略,包括复合奖励设计与轨迹级别的探索。我们已将代码与数据集开源至此仓库。