2 个月前
Mind2Web 2:评估代理搜索中的代理作为评判者
Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, et al

摘要
代理搜索系统(如深度研究系统),其中大型语言模型自主浏览网络、综合信息并返回全面且有引用支持的答案,标志着用户与大规模网络信息互动方式的重大转变。尽管这些系统有望提高效率并减轻认知负担,但其日益增长的复杂性和开放性已经超过了现有的评估基准和方法,后者主要假设搜索时间较短且答案静态不变。在本文中,我们介绍了Mind2Web 2,这是一个包含130个现实、高质量且长周期任务的基准测试集,这些任务需要实时网络浏览和广泛的信息综合,构建过程中投入了超过1,000小时的人工劳动。为了解决评估随时间变化且复杂的答案这一挑战,我们提出了一种新颖的“代理即评审者”框架。该方法基于树形结构评分设计构建特定任务的评审代理,以自动评估答案的正确性和来源归属。我们对九个前沿的代理搜索系统以及人类表现进行了全面评估,并通过详细的错误分析为未来的发展提供了洞见。表现最佳的系统——OpenAI深度研究系统——已经能够在花费一半时间的情况下达到50-70%的人类表现水平,显示出巨大的潜力。总体而言,Mind2Web 2为开发和评估下一代代理搜索系统提供了一个严格的基石。