il y a 4 mois

Résumé

La demande croissante de prises de décision fondées sur les données a créé un besoin pressant en agents de données capables d’intégrer des données structurées et non structurées pour des analyses. Bien que les agents de données montrent un grand potentiel pour permettre aux utilisateurs d’effectuer des tâches d’analyse complexes, ce domaine souffre encore de trois limitations critiques : premièrement, des benchmarks complets pour les agents de données sont absents, en raison de la difficulté à concevoir des cas de test évaluant les capacités des agents sur des tâches analytiques multi-sources ; deuxièmement, la construction de cas de test fiables combinant données structurées et non structurées reste coûteuse et excessivement complexe ; troisièmement, les benchmarks existants présentent une faible adaptabilité et généralisabilité, entraînant un champ d’évaluation restreint.Pour relever ces défis, nous proposons FDABench, le premier benchmark dédié aux agents de données, spécifiquement conçu pour évaluer les agents dans des scénarios d’analyse multi-sources. Nos contributions s’articulent autour de trois axes : (i) nous avons construit un benchmark standardisé comprenant 2 007 tâches diverses, couvrant différents sources de données, domaines, niveaux de difficulté et types de tâches, afin d’évaluer de manière exhaustive les performances des agents de données ; (ii) nous avons conçu un cadre de collaboration entre agents et experts, assurant une construction fiable et efficace du benchmark sur des données hétérogènes ; (iii) nous avons doté FDABench de capacités robustes de généralisation à travers divers systèmes cibles et cadres d’exploitation. Nous avons utilisé FDABench pour évaluer plusieurs systèmes d’agents de données, révélant que chacun présente des avantages et des limites distincts en termes de qualité de réponse, d’exactitude, de latence et de coût en tokens.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Benchmarks

Agent

Génération Augmentée Par La Recherche

Infrastructure D'ia

Approche/Framework

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Benchmarks

Agent

Génération Augmentée Par La Recherche

Infrastructure D'ia

Approche/Framework

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters