Command Palette

Search for a command to run...

FDAbench-Full異種データ分析ベンチマークデータセット

日付

19日前

組織

南洋理工大学
シンガポール国立大学

論文URL

2509.02473

ライセンス

CC BY 4.0

FDAbench-Fullは、2025年に南洋理工大学、シンガポール国立大学、Huawei Technologies Co., Ltd.によってリリースされた、データエージェント向けの最初の異種データ分析タスクベンチマークセットです。関連する論文の結果は次のとおりです。FDABench: 異種データに対する分析クエリにおけるデータエージェントのベンチマーク「」は、データベース クエリ生成、SQL 理解、財務データ分析におけるモデルの機能を評価することを目的としています。

このデータセットには、多様なデータドメイン、難易度、タスクカテゴリを網羅する2,007件の高品質な分析タスクが含まれています。各サンプルには、task_id(タスクの一意の識別子)、instance_id(インスタンスの識別子)、db(データベース名/識別子)、level(難易度:簡単/中/難しい)、database_type(データベースシステムの種類)、question_type(質問のカテゴリ)、tools_available(利用可能なツールのリスト)、query(メインの質問/クエリのテキスト)といった完全なメタデータフィールドが含まれています。

データセットの構造

データセットには 3 つのタスク タイプが含まれています。

  • 単一選択問題:579問の綿密に設計された問題があり、それぞれに正解は1つだけです。主に、データベースの概念とSQLクエリに関するモデルの理解度をテストするために使用されます。
  • 多肢選択問題(Multiple):複数の正解が可能な、合計760問の複雑な問題です。これらの問題には、正確な数値計算結果と推論に基づく結論が含まれており、データ分析と推論能力におけるモデルの総合的なパフォーマンスを評価するために使用されます。
  • レポート生成 (レポート): 合計 668 の質問で、詳細な分析レポートを生成し、データ エージェントが複数のデータ ソース環境で包括的な分析を実行する能力をテストし、比較評価ベンチマークとして標準レポートを提供する必要があります。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FDAbench-Full異種データ分析ベンチマークデータセット | データセット | HyperAI超神経