FDAbench - Ensemble De Données De Référence d'analyse De Données Hétérogènes Complètes
FDAbench-Full est le premier ensemble de tests de performances pour les tâches d'analyse de données hétérogènes destinées aux agents de données, publié par l'Université technologique de Nanyang, l'Université nationale de Singapour et Huawei Technologies Co., Ltd. en 2025. Les résultats de l'étude associée sont les suivants :FDABench : une référence pour les agents de données sur les requêtes analytiques sur des données hétérogènes", qui vise à évaluer les capacités du modèle en matière de génération de requêtes de base de données, de compréhension SQL et d'analyse de données financières.
L'ensemble de données contient 2 007 tâches d'analyse de haute qualité, couvrant une grande variété de domaines de données, de niveaux de difficulté et de catégories de tâches. Chaque exemple inclut des champs de métadonnées complets, notamment : task_id (identifiant unique de la tâche), instance_id (identifiant de l'instance), db (nom/identifiant de la base de données), level (niveau de difficulté : facile/moyen/difficile), database_type (type de système de base de données), question_type (catégorie de la question), tools_available (liste des outils disponibles) et query (texte de la question/requête principale).
Structure du jeu de données
L'ensemble de données contient trois types de tâches :
- Questions à choix unique : 579 questions soigneusement conçues, chacune n'ayant qu'une seule bonne réponse. Elles servent principalement à tester la compréhension du modèle des concepts de base de données et des requêtes SQL.
- Questions à choix multiples (QCM) : 760 questions complexes avec plusieurs réponses possibles. Elles incluent des résultats de calculs numériques précis et des conclusions fondées sur le raisonnement, et servent à évaluer les performances globales du modèle en matière d'analyse de données et de raisonnement.
- Génération de rapports (rapport) : Un total de 668 questions nécessitent la génération de rapports d'analyse détaillés, testant la capacité de l'agent de données à effectuer une analyse complète dans un environnement à sources de données multiples et fournissant un rapport standard comme référence d'évaluation comparative.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.