12 天前

WideSearch:面向智能体的广域信息搜索基准测试

Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
WideSearch:面向智能体的广域信息搜索基准测试
摘要

从专业研究到日常规划,许多任务都因大规模的信息检索而陷入瓶颈,这类工作重复性高,认知复杂性却较低。随着大型语言模型(LLMs)的快速发展,由其驱动的自动化检索代理为将人类从这种繁琐工作中解放出来提供了一种颇具前景的解决方案。然而,由于缺乏合适的基准测试,这些代理在可靠且完整地执行此类“广语境”信息收集任务方面的能力尚未得到充分评估。 为填补这一空白,我们推出了WideSearch——一个旨在评估代理在大规模收集任务中可靠性的全新基准测试。该基准包含200个人工精心筛选的问题(100个英文问题、100个中文问题),这些问题来自15个以上的不同领域,且基于真实用户查询。每个任务都要求代理收集大规模的原子信息(这些信息可逐一进行客观验证),并将其整理成结构清晰的输出。一套严格的五阶段质量控制流程确保了数据集的难度、完整性和可验证性。 我们对10多个最先进的智能检索系统进行了基准测试,包括单代理系统、多代理框架以及端到端商业系统。大多数系统的总体成功率接近0%,表现最佳的系统也仅达到5%。不过,若有充足时间,经多名人类测试者交叉验证可实现接近100%的成功率。这些结果表明,当前的检索代理在大规模信息检索方面存在严重不足,凸显了智能检索领域未来研究与开发的迫切方向。 我们的数据集、评估流程和基准测试结果已公开发布,网址为:https://widesearch-seed.github.io/