Command Palette

Search for a command to run...

FDAbench-Full 异构数据分析基准数据集

日期

19 天前

机构

Nanyang Technological University (南洋理工大学)
National University of Singapore

论文链接

2509.02473

许可协议

CC BY 4.0

FDAbench-Full 是由南洋理工大学、新加坡国立大学联合华为技术有限公司于 2025 年发布的首个面向数据代理(Data Agents)的异构数据分析任务基准测试集,相关论文成果为「FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data」,旨在评估模型在数据库查询生成、 SQL 理解 以及金融数据分析等方面的能力。

该数据集共包含 2,007 个高质量分析任务 (tasks),涵盖多样化的数据领域、难度等级与任务类别。每条样例包含完整的元信息字段,包括: task_id(任务唯一标识符)、 instance_id(实例标识符)、 db(数据库名称/标识符)、 level(难度等级:easy/medium/hard)、 database_type(数据库系统类型)、 question_type(问题类别)、 tools_available(可用工具列表),以及 query(主要问题/查询文本)。

数据集结构

该数据集包含三个任务类型:

  • 单选题 (single):共 579 道精心设计的问题,每题仅有一个正确答案,主要用于测试模型对数据库概念和 SQL 查询的理解能力。
  • 多选题 (multiple):共 760 道复杂问题,可能存在多个正确答案,包含精确的数值计算结果以及基于推理的结论,用于评估模型在数据分析与推理能力上的全面表现。
  • 报告生成 (report):共 668 道需要生成详细分析报告的问题,测试数据代理在多数据源环境下进行综合分析的能力,并提供了标准报告作为对照评价基准。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供