Command Palette
Search for a command to run...
DeepSearchQA:弥合深度研究Agent的全面性差距
DeepSearchQA:弥合深度研究Agent的全面性差距
Abstract
我们提出了DeepSearchQA,这是一个包含900个提示(prompt)的基准测试集,用于评估智能体在17个不同领域中执行复杂多步骤信息检索任务的能力。与传统基准测试侧重单一答案检索或广泛的事实性验证不同,DeepSearchQA构建了一个由精心设计的挑战性任务组成的语料库,旨在评估智能体执行复杂搜索策略以生成全面答案列表的能力。这一设计转变明确检验了三项关键但长期缺乏充分评估的能力:(1)系统性整合来自异构来源的碎片化信息;(2)去重与实体消歧,以保障结果的精确性;(3)在开放式的搜索空间中对停止条件进行合理推理。每个任务均以因果链的形式组织,前一阶段信息的获取依赖于前序步骤的成功完成,从而对智能体的长程规划能力与上下文保持能力提出严格要求。所有任务均基于开放网络数据,其答案集具有客观可验证性。我们对当前最先进的智能体架构进行了全面评估,发现其性能存在显著局限:即使是最先进的模型,也难以在高召回率与高精确率之间取得平衡。我们观察到多种典型失败模式,包括过早终止搜索(导致信息召回不足)以及“保守性试探”行为——即智能体盲目扩大搜索范围,生成大量低置信度答案以人为提升召回率。这些发现揭示了当前智能体设计中仍存在巨大提升空间,并将DeepSearchQA确立为推动未来研究向更强大、更深入的科研能力演进的关键诊断工具。