Command Palette
Search for a command to run...
FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes
Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Résumé
La demande croissante de prises de décision fondées sur les données a créé un besoin pressant en agents de données capables d’intégrer des données structurées et non structurées pour des analyses. Bien que les agents de données montrent un grand potentiel pour permettre aux utilisateurs d’effectuer des tâches d’analyse complexes, ce domaine souffre encore de trois limitations critiques : premièrement, des benchmarks complets pour les agents de données sont absents, en raison de la difficulté à concevoir des cas de test évaluant les capacités des agents sur des tâches analytiques multi-sources ; deuxièmement, la construction de cas de test fiables combinant données structurées et non structurées reste coûteuse et excessivement complexe ; troisièmement, les benchmarks existants présentent une faible adaptabilité et généralisabilité, entraînant un champ d’évaluation restreint.Pour relever ces défis, nous proposons FDABench, le premier benchmark dédié aux agents de données, spécifiquement conçu pour évaluer les agents dans des scénarios d’analyse multi-sources. Nos contributions s’articulent autour de trois axes : (i) nous avons construit un benchmark standardisé comprenant 2 007 tâches diverses, couvrant différents sources de données, domaines, niveaux de difficulté et types de tâches, afin d’évaluer de manière exhaustive les performances des agents de données ; (ii) nous avons conçu un cadre de collaboration entre agents et experts, assurant une construction fiable et efficace du benchmark sur des données hétérogènes ; (iii) nous avons doté FDABench de capacités robustes de généralisation à travers divers systèmes cibles et cadres d’exploitation. Nous avons utilisé FDABench pour évaluer plusieurs systèmes d’agents de données, révélant que chacun présente des avantages et des limites distincts en termes de qualité de réponse, d’exactitude, de latence et de coût en tokens.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.