@inproceedings{wang2026fdabench, title = {FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data}, author = {Wang, Ziting and Zhang, Shize and Yuan, Haitao and Zhu, Jinwei and Dong, Wei and Cong, Gao}, booktitle = {Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)}, year = {2026}, note = {To appear} }

日付

9ヶ月前

データセット構成

論文URL

2509.02473

ライセンス

CC BY 4.0

タグ

自然言語処理

FDAbench-Fullは、2025年に南洋理工大学、シンガポール国立大学、Huawei Technologies Co., Ltd.によってリリースされた、データエージェント向けの最初の異種データ分析タスクベンチマークセットです。関連する論文の結果は次のとおりです。FDABench: 異種データに対する分析クエリにおけるデータエージェントのベンチマーク「」は、データベースクエリ生成、SQL 理解、財務データ分析におけるモデルの機能を評価することを目的としています。このデータセットには、多様なデータドメイン、難易度、タスクカテゴリを網羅する2,007件の高品質な分析タスクが含まれています。各サンプルには、task_id（タスクの一意の識別子）、instance_id（インスタンスの識別子）、db（データベース名／識別子）、level（難易度：簡単／中／難しい）、database_type（データベースシステムの種類）、question_type（質問のカテゴリ）、tools_available（利用可能なツールのリスト）、query（メインの質問／クエリのテキスト）といった完全なメタデータフィールドが含まれています。

データセットの構造

データセットには 3 つのタスクタイプが含まれています。

単一選択問題：579問の綿密に設計された問題があり、それぞれに正解は1つだけです。主に、データベースの概念とSQLクエリに関するモデルの理解度をテストするために使用されます。
多肢選択問題（Multiple）：複数の正解が可能な、合計760問の複雑な問題です。これらの問題には、正確な数値計算結果と推論に基づく結論が含まれており、データ分析と推論能力におけるモデルの総合的なパフォーマンスを評価するために使用されます。
レポート生成 (レポート): 合計 668 の質問で、詳細な分析レポートを生成し、データエージェントが複数のデータソース環境で包括的な分析を実行する能力をテストし、比較評価ベンチマークとして標準レポートを提供する必要があります。

引用

@inproceedings{wang2026fdabench,
title     = {FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data},
author    = {Wang, Ziting and Zhang, Shize and Yuan, Haitao and Zhu, Jinwei and Dong, Wei and Cong, Gao},
booktitle = {Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)},
year      = {2026},
note      = {To appear}
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

Discordで議論

日付

9ヶ月前

データセット構成

論文URL

2509.02473

ライセンス

CC BY 4.0

タグ

自然言語処理

データセットの構造

データセットには 3 つのタスクタイプが含まれています。

単一選択問題：579問の綿密に設計された問題があり、それぞれに正解は1つだけです。主に、データベースの概念とSQLクエリに関するモデルの理解度をテストするために使用されます。
多肢選択問題（Multiple）：複数の正解が可能な、合計760問の複雑な問題です。これらの問題には、正確な数値計算結果と推論に基づく結論が含まれており、データ分析と推論能力におけるモデルの総合的なパフォーマンスを評価するために使用されます。
レポート生成 (レポート): 合計 668 の質問で、詳細な分析レポートを生成し、データエージェントが複数のデータソース環境で包括的な分析を実行する能力をテストし、比較評価ベンチマークとして標準レポートを提供する必要があります。

引用

@inproceedings{wang2026fdabench,
title     = {FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data},
author    = {Wang, Ziting and Zhang, Shize and Yuan, Haitao and Zhu, Jinwei and Dong, Wei and Cong, Gao},
booktitle = {Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)},
year      = {2026},
note      = {To appear}
}

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

FDAbench-Full異種データ分析ベンチマークデータセット

データセットの構造

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

FDAbench-Full異種データ分析ベンチマークデータセット

データセットの構造

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

乳がん：マルチモーダル融合データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

MIA多段階推論および決定軌跡データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

ToolACE 複合ツール学習対話データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

FDAbench-Full異種データ分析ベンチマークデータセット

データセットの構造

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

乳がん：マルチモーダル融合データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

MIA多段階推論および決定軌跡データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

ToolACE 複合ツール学習対話データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

乳がん：マルチモーダル融合データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

MIA多段階推論および決定軌跡データセット

MDPBench 多言語文書解析ベンチマークデータセット

DRACOクロスドメイン深層研究ベンチマークデータセット

ToolACE 複合ツール学習対話データセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット

RHELM長期記憶評価データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット