Command Palette
Search for a command to run...
DeepSearchQA 多步信息搜索问答数据集
DeepSearchQA 是由 Google DeepMind 于 2025 年发布的一个面向大语言模型及智能体的信息检索与事实性评测数据集,相关论文成果为 DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents,旨在评估模型在复杂、多步骤信息搜索任务中的规划能力、上下文保持能力以及对开放网络信息的综合利用能力。
该数据集共包含 900 条人工设计的评测样本,覆盖 17 个不同领域。每个样本由一个问题提示、对应的问题领域类别、用于评测的标准答案以及答案类型标注构成,其中答案类型区分为单一答案与集合答案,约 65% 的问题要求模型给出完整的答案集合。所有问题均以「因果链」形式设计,即后续信息的获取依赖于前一步搜索结果,要求模型执行多步搜索计划并保持长期上下文一致性。所有任务均基于开放网络,答案具备客观可验证性,主要用于评测具备联网搜索能力的大语言模型或智能体系统。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.