Date

il y a 4 mois

Organisation

URL du document

2509.02473

Licence

CC BY 4.0

Balises

Traitement Du Langage Naturel

FDAbench-Full est le premier ensemble de tests de performances pour les tâches d'analyse de données hétérogènes destinées aux agents de données, publié par l'Université technologique de Nanyang, l'Université nationale de Singapour et Huawei Technologies Co., Ltd. en 2025. Les résultats de l'étude associée sont les suivants :FDABench : une référence pour les agents de données sur les requêtes analytiques sur des données hétérogènes", qui vise à évaluer les capacités du modèle en matière de génération de requêtes de base de données, de compréhension SQL et d'analyse de données financières.

L'ensemble de données contient 2 007 tâches d'analyse de haute qualité, couvrant une grande variété de domaines de données, de niveaux de difficulté et de catégories de tâches. Chaque exemple inclut des champs de métadonnées complets, notamment : task_id (identifiant unique de la tâche), instance_id (identifiant de l'instance), db (nom/identifiant de la base de données), level (niveau de difficulté : facile/moyen/difficile), database_type (type de système de base de données), question_type (catégorie de la question), tools_available (liste des outils disponibles) et query (texte de la question/requête principale).

Structure du jeu de données

L'ensemble de données contient trois types de tâches :

Questions à choix unique : 579 questions soigneusement conçues, chacune n'ayant qu'une seule bonne réponse. Elles servent principalement à tester la compréhension du modèle des concepts de base de données et des requêtes SQL.
Questions à choix multiples (QCM) : 760 questions complexes avec plusieurs réponses possibles. Elles incluent des résultats de calculs numériques précis et des conclusions fondées sur le raisonnement, et servent à évaluer les performances globales du modèle en matière d'analyse de données et de raisonnement.
Génération de rapports (rapport) : Un total de 668 questions nécessitent la génération de rapports d'analyse détaillés, testant la capacité de l'agent de données à effectuer une analyse complète dans un environnement à sources de données multiples et fournissant un rapport standard comme référence d'évaluation comparative.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Associé Jeux de données

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

il y a 2 mois

Ensemble De Données DeepSearchQA Pour La Recherche d'informations En Plusieurs Étapes Et La Réponse Aux Questions

il y a un mois

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a un mois

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

il y a un mois

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a un mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

Date

il y a 4 mois

Organisation

URL du document

2509.02473

Licence

CC BY 4.0

Balises

Traitement Du Langage Naturel

Structure du jeu de données

L'ensemble de données contient trois types de tâches :

Questions à choix unique : 579 questions soigneusement conçues, chacune n'ayant qu'une seule bonne réponse. Elles servent principalement à tester la compréhension du modèle des concepts de base de données et des requêtes SQL.
Questions à choix multiples (QCM) : 760 questions complexes avec plusieurs réponses possibles. Elles incluent des résultats de calculs numériques précis et des conclusions fondées sur le raisonnement, et servent à évaluer les performances globales du modèle en matière d'analyse de données et de raisonnement.
Génération de rapports (rapport) : Un total de 668 questions nécessitent la génération de rapports d'analyse détaillés, testant la capacité de l'agent de données à effectuer une analyse complète dans un environnement à sources de données multiples et fournissant un rapport standard comme référence d'évaluation comparative.

Associé Jeux de données

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

il y a 2 mois

Ensemble De Données DeepSearchQA Pour La Recherche d'informations En Plusieurs Étapes Et La Réponse Aux Questions

il y a un mois

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a un mois

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

il y a un mois

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a un mois

Ensemble De Données De Référence NAMD_Benchmark Pour La Dynamique Moléculaire

il y a 3 mois

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a un mois

Base De Données De Questions-réponses Sur Les Premiers Secours FirstAidQA

il y a 2 mois

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

FDAbench - Ensemble De Données De Référence d'analyse De Données Hétérogènes Complètes

Structure du jeu de données

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FDAbench - Ensemble De Données De Référence d'analyse De Données Hétérogènes Complètes

Structure du jeu de données

Associé Jeux de données

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données DeepSearchQA Pour La Recherche d'informations En Plusieurs Étapes Et La Réponse Aux Questions

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données De Référence NAMD_Benchmark Pour La Dynamique Moléculaire

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Base De Données De Questions-réponses Sur Les Premiers Secours FirstAidQA

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FDAbench - Ensemble De Données De Référence d'analyse De Données Hétérogènes Complètes

Structure du jeu de données

Associé Jeux de données

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données DeepSearchQA Pour La Recherche d'informations En Plusieurs Étapes Et La Réponse Aux Questions

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données De Référence NAMD_Benchmark Pour La Dynamique Moléculaire

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Base De Données De Questions-réponses Sur Les Premiers Secours FirstAidQA

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Jeux de données

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données DeepSearchQA Pour La Recherche d'informations En Plusieurs Étapes Et La Réponse Aux Questions

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données De Référence NAMD_Benchmark Pour La Dynamique Moléculaire

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Base De Données De Questions-réponses Sur Les Premiers Secours FirstAidQA

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k

Associé Jeux de données

Ensemble De Données Semi-structurées SSRB Avec Requêtes En Langage Naturel

Ensemble De Données DeepSearchQA Pour La Recherche d'informations En Plusieurs Étapes Et La Réponse Aux Questions

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données De Référence NAMD_Benchmark Pour La Dynamique Moléculaire

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Base De Données De Questions-réponses Sur Les Premiers Secours FirstAidQA

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k