使用此数据集在 Discord 上讨论

日期

10 个月前

数据集组织

论文 URL

许可证

Other

标签

检索增强生成

多任务学习

*该数据集支持在线使用，点击此处跳转。

WideSearch 是由字节跳动 Seed 团队于 2025 年发布的首个专为「广域信息搜集（broad info-seeking）」设计的智能体评测基准数据集，相关论文成果为「WideSearch:Benchmarking Agentic Broad Info-Seeking」，旨在系统评估并推动大语言模型在大规模事实收集、综合与可核验的结构化输出上的可靠性与完整性。该基准包含研究团队从真实用户查询中精心挑选并手工清洗出 200 个高质量问题（100 个英文问题、 100 个中文问题），这些问题来自 15 个以上的不同领域。

数据字段：

instance_id：任务唯一 ID（与 gold CSV 文件名对应）。
query：自然语言指令，通常明确所需列名与 Markdown 表格输出要求。
evaluation：用于自动评测的序列化（字符串）对象，包含：

unique_columns：主键列（用于行对齐）；
required：必须出现的列名；
eval_pipeline：列级评测配置（如 preprocess 、 metric 、 criterion）。

language：任务语言，取值为 en 或 zh 。
数据构建与自动评测流程图

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供