HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Résumé

La demande croissante de prises de décision fondées sur les données a créé un besoin pressant en agents de données capables d’intégrer des données structurées et non structurées pour des analyses. Bien que les agents de données montrent un grand potentiel pour permettre aux utilisateurs d’effectuer des tâches d’analyse complexes, ce domaine souffre encore de trois limitations critiques : premièrement, des benchmarks complets pour les agents de données sont absents, en raison de la difficulté à concevoir des cas de test évaluant les capacités des agents sur des tâches analytiques multi-sources ; deuxièmement, la construction de cas de test fiables combinant données structurées et non structurées reste coûteuse et excessivement complexe ; troisièmement, les benchmarks existants présentent une faible adaptabilité et généralisabilité, entraînant un champ d’évaluation restreint.Pour relever ces défis, nous proposons FDABench, le premier benchmark dédié aux agents de données, spécifiquement conçu pour évaluer les agents dans des scénarios d’analyse multi-sources. Nos contributions s’articulent autour de trois axes : (i) nous avons construit un benchmark standardisé comprenant 2 007 tâches diverses, couvrant différents sources de données, domaines, niveaux de difficulté et types de tâches, afin d’évaluer de manière exhaustive les performances des agents de données ; (ii) nous avons conçu un cadre de collaboration entre agents et experts, assurant une construction fiable et efficace du benchmark sur des données hétérogènes ; (iii) nous avons doté FDABench de capacités robustes de généralisation à travers divers systèmes cibles et cadres d’exploitation. Nous avons utilisé FDABench pour évaluer plusieurs systèmes d’agents de données, révélant que chacun présente des avantages et des limites distincts en termes de qualité de réponse, d’exactitude, de latence et de coût en tokens.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes | Articles de recherche | HyperAI