日期

3 个月前

论文 URL

2602.11685

许可证

MIT

标签

金融

医学

人工智能

DRACO 跨领域深度研究基准数据集是由 Perplexity 团队发布的一个面向复杂研究任务评估场景的数据集，相关论文成果为 DRACO: A Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity，旨在系统评估深度研究系统在准确性、完整性和客观性方面的综合能力。该数据集包含 100 个复杂研究任务，覆盖全球五大洲的 40 个国家与地区，涉及金融、购物/产品对比、学术、科技等 10 大应用领域。每个任务对应一个多步骤、多来源的信息检索与分析问题，并配有由 26 位领域专家设计和验证的评估标准。每个标准平均包含约 40 项评价指标，从事实准确性、分析广度与深度、展示质量以及引用质量四个维度对模型输出进行细粒度评估。各领域任务占比如下图：

数据字段:

id: 任务的唯一标识符
domain: 任务所属的领域
problem: 需要解答的完整研究查询
answer: JSON 编码的评估标准，包含各个评估维度的具体标准

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

3 个月前

论文 URL

2602.11685

许可证

MIT

标签

金融

医学

人工智能

数据字段:

id: 任务的唯一标识符
domain: 任务所属的领域
problem: 需要解答的完整研究查询
answer: JSON 编码的评估标准，包含各个评估维度的具体标准

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

数据字段:

用 AI 构建 AI

HyperAI Newsletters

数据字段:

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

用 AI 构建 AI

HyperAI Newsletters

数据字段:

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

Command Palette

DRACO 跨领域深度研究基准数据集

数据字段:

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DRACO 跨领域深度研究基准数据集

数据字段:

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DRACO 跨领域深度研究基准数据集

数据字段:

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集

相关数据集

MDPBench 多语言文档解析基准数据集

Open-RL 推理问题数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

CL-bench 上下文学习评估基准数据集