HyperAIHyperAI

Command Palette

Search for a command to run...

FDAbench - Ensemble De Données De Référence d'analyse De Données Hétérogènes Complètes

Discuter sur Discord

Date

il y a 4 mois

Organisation

Université technologique de Nanyang
Université nationale de Singapour
Huawei

URL du document

2509.02473

Licence

CC BY 4.0

FDAbench-Full est le premier ensemble de tests de performances pour les tâches d'analyse de données hétérogènes destinées aux agents de données, publié par l'Université technologique de Nanyang, l'Université nationale de Singapour et Huawei Technologies Co., Ltd. en 2025. Les résultats de l'étude associée sont les suivants :FDABench : une référence pour les agents de données sur les requêtes analytiques sur des données hétérogènes", qui vise à évaluer les capacités du modèle en matière de génération de requêtes de base de données, de compréhension SQL et d'analyse de données financières.

L'ensemble de données contient 2 007 tâches d'analyse de haute qualité, couvrant une grande variété de domaines de données, de niveaux de difficulté et de catégories de tâches. Chaque exemple inclut des champs de métadonnées complets, notamment : task_id (identifiant unique de la tâche), instance_id (identifiant de l'instance), db (nom/identifiant de la base de données), level (niveau de difficulté : facile/moyen/difficile), database_type (type de système de base de données), question_type (catégorie de la question), tools_available (liste des outils disponibles) et query (texte de la question/requête principale).

Structure du jeu de données

L'ensemble de données contient trois types de tâches :

  • Questions à choix unique : 579 questions soigneusement conçues, chacune n'ayant qu'une seule bonne réponse. Elles servent principalement à tester la compréhension du modèle des concepts de base de données et des requêtes SQL.
  • Questions à choix multiples (QCM) : 760 questions complexes avec plusieurs réponses possibles. Elles incluent des résultats de calculs numériques précis et des conclusions fondées sur le raisonnement, et servent à évaluer les performances globales du modèle en matière d'analyse de données et de raisonnement.
  • Génération de rapports (rapport) : Un total de 668 questions nécessitent la génération de rapports d'analyse détaillés, testant la capacité de l'agent de données à effectuer une analyse complète dans un environnement à sources de données multiples et fournissant un rapport standard comme référence d'évaluation comparative.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp