Command Palette
Search for a command to run...
DRACO 跨领域深度研究基准数据集
DRACO 跨领域深度研究基准数据集是由 Perplexity 团队发布的一个面向复杂研究任务评估场景的数据集,相关论文成果为 DRACO: A Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity,旨在系统评估深度研究系统在准确性、完整性和客观性方面的综合能力。 该数据集包含 100 个复杂研究任务,覆盖全球五大洲的 40 个国家与地区,涉及金融、购物/产品对比、学术、科技等 10 大应用领域。每个任务对应一个多步骤、多来源的信息检索与分析问题,并配有由 26 位领域专家设计和验证的评估标准。每个标准平均包含约 40 项评价指标,从事实准确性、分析广度与深度、展示质量以及引用质量四个维度对模型输出进行细粒度评估。 各领域任务占比如下图:

id: 任务的唯一标识符domain: 任务所属的领域problem: 需要解答的完整研究查询answer: JSON 编码的评估标准,包含各个评估维度的具体标准