Command Palette
Search for a command to run...
FDAbench-Full異種データ分析ベンチマークデータセット
FDAbench-Fullは、2025年に南洋理工大学、シンガポール国立大学、Huawei Technologies Co., Ltd.によってリリースされた、データエージェント向けの最初の異種データ分析タスクベンチマークセットです。関連する論文の結果は次のとおりです。FDABench: 異種データに対する分析クエリにおけるデータエージェントのベンチマーク「」は、データベース クエリ生成、SQL 理解、財務データ分析におけるモデルの機能を評価することを目的としています。
このデータセットには、多様なデータドメイン、難易度、タスクカテゴリを網羅する2,007件の高品質な分析タスクが含まれています。各サンプルには、task_id(タスクの一意の識別子)、instance_id(インスタンスの識別子)、db(データベース名/識別子)、level(難易度:簡単/中/難しい)、database_type(データベースシステムの種類)、question_type(質問のカテゴリ)、tools_available(利用可能なツールのリスト)、query(メインの質問/クエリのテキスト)といった完全なメタデータフィールドが含まれています。
データセットの構造
データセットには 3 つのタスク タイプが含まれています。
- 単一選択問題:579問の綿密に設計された問題があり、それぞれに正解は1つだけです。主に、データベースの概念とSQLクエリに関するモデルの理解度をテストするために使用されます。
 - 多肢選択問題(Multiple):複数の正解が可能な、合計760問の複雑な問題です。これらの問題には、正確な数値計算結果と推論に基づく結論が含まれており、データ分析と推論能力におけるモデルの総合的なパフォーマンスを評価するために使用されます。
 - レポート生成 (レポート): 合計 668 の質問で、詳細な分析レポートを生成し、データ エージェントが複数のデータ ソース環境で包括的な分析を実行する能力をテストし、比較評価ベンチマークとして標準レポートを提供する必要があります。