日期

4 个月前

数据集组织

论文 URL

2509.02473

许可证

CC BY 4.0

标签

自然语言处理

FDAbench-Full 是由南洋理工大学、新加坡国立大学联合华为技术有限公司于 2025 年发布的首个面向数据代理（Data Agents）的异构数据分析任务基准测试集，相关论文成果为「FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data」，旨在评估模型在数据库查询生成、 SQL 理解以及金融数据分析等方面的能力。

该数据集共包含 2,007 个高质量分析任务 (tasks)，涵盖多样化的数据领域、难度等级与任务类别。每条样例包含完整的元信息字段，包括： task_id（任务唯一标识符）、 instance_id（实例标识符）、 db（数据库名称/标识符）、 level（难度等级：easy/medium/hard）、 database_type（数据库系统类型）、 question_type（问题类别）、 tools_available（可用工具列表），以及 query（主要问题/查询文本）。

数据集结构

该数据集包含三个任务类型：

单选题 (single)：共 579 道精心设计的问题，每题仅有一个正确答案，主要用于测试模型对数据库概念和 SQL 查询的理解能力。
多选题 (multiple)：共 760 道复杂问题，可能存在多个正确答案，包含精确的数值计算结果以及基于推理的结论，用于评估模型在数据分析与推理能力上的全面表现。
报告生成 (report)：共 668 道需要生成详细分析报告的问题，测试数据代理在多数据源环境下进行综合分析的能力，并提供了标准报告作为对照评价基准。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

在 Discord 上讨论

日期

4 个月前

数据集组织

论文 URL

2509.02473

许可证

CC BY 4.0

标签

自然语言处理

数据集结构

该数据集包含三个任务类型：

单选题 (single)：共 579 道精心设计的问题，每题仅有一个正确答案，主要用于测试模型对数据库概念和 SQL 查询的理解能力。
多选题 (multiple)：共 760 道复杂问题，可能存在多个正确答案，包含精确的数值计算结果以及基于推理的结论，用于评估模型在数据分析与推理能力上的全面表现。
报告生成 (report)：共 668 道需要生成详细分析报告的问题，测试数据代理在多数据源环境下进行综合分析的能力，并提供了标准报告作为对照评价基准。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

SSRB 半结构化数据自然语言查询数据集

2 个月前

DeepSearchQA 多步信息搜索问答数据集

1 个月前

MCIF 多模态跨语言指令跟随数据集

1 个月前

VenusBench-GD 跨平台界面理解数据集

1 个月前

GroundingME 复杂场景理解评测数据集

1 个月前

LongBench-Pro 长上下文综合评测数据集

1 个月前

FirstAidQA 急救知识问答数据集

2 个月前

Spatial-SSRL-81k 空间感知自监督数据集

2 个月前

HumanSense Benchmark 人体感知基准数据集

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

FDAbench-Full 异构数据分析基准数据集

数据集结构

用 AI 构建 AI

HyperAI Newsletters

Command Palette

FDAbench-Full 异构数据分析基准数据集

数据集结构

相关数据集

SSRB 半结构化数据自然语言查询数据集

DeepSearchQA 多步信息搜索问答数据集

MCIF 多模态跨语言指令跟随数据集

VenusBench-GD 跨平台界面理解数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

FirstAidQA 急救知识问答数据集

Spatial-SSRL-81k 空间感知自监督数据集

HumanSense Benchmark 人体感知基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

FDAbench-Full 异构数据分析基准数据集

数据集结构

相关数据集

SSRB 半结构化数据自然语言查询数据集

DeepSearchQA 多步信息搜索问答数据集

MCIF 多模态跨语言指令跟随数据集

VenusBench-GD 跨平台界面理解数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

FirstAidQA 急救知识问答数据集

Spatial-SSRL-81k 空间感知自监督数据集

HumanSense Benchmark 人体感知基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

SSRB 半结构化数据自然语言查询数据集

DeepSearchQA 多步信息搜索问答数据集

MCIF 多模态跨语言指令跟随数据集

VenusBench-GD 跨平台界面理解数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

FirstAidQA 急救知识问答数据集

Spatial-SSRL-81k 空间感知自监督数据集

HumanSense Benchmark 人体感知基准数据集

相关数据集

SSRB 半结构化数据自然语言查询数据集

DeepSearchQA 多步信息搜索问答数据集

MCIF 多模态跨语言指令跟随数据集

VenusBench-GD 跨平台界面理解数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

FirstAidQA 急救知识问答数据集

Spatial-SSRL-81k 空间感知自监督数据集

HumanSense Benchmark 人体感知基准数据集