HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 6 jours

DAComp : Évaluation des Agents de données tout au long du cycle de vie de l'intelligence des données

DAComp : Évaluation des Agents de données tout au long du cycle de vie de l'intelligence des données

Résumé

Les flux de travail réels en intelligence des données d'entreprise englobent l'ingénierie des données, qui transforme des sources brutes en tables prêtes à l'analyse, ainsi que l'analyse des données, qui convertit ces tables en insights orientés décision. Nous introduisons DAComp, un benchmark composé de 210 tâches qui reflète fidèlement ces workflows complexes. Les tâches d'ingénierie des données (DE) exigent une ingénierie au niveau du dépôt sur des schémas industriels, incluant la conception et la construction de pipelines SQL multi-étapes à partir de zéro, ainsi que l'évolution de systèmes existants face à des exigences en constante évolution. Les tâches d'analyse des données (DA) posent des problèmes commerciaux à réponse ouverte, nécessitant une planification stratégique, une analyse exploratoire par codage itératif, l'interprétation des résultats intermédiaires, et la synthèse de recommandations actionnables. Les tâches d'ingénierie sont évaluées par une évaluation basée sur l'exécution, utilisant plusieurs métriques. Les tâches à réponse ouverte sont jugées par un juge LLM fiable et expérimentalement validé, guidé par des grilles hiérarchiques et soigneusement conçues. Nos expériences révèlent que même les agents de pointe échouent sur DAComp. Les performances sur les tâches DE sont particulièrement faibles, avec des taux de réussite inférieurs à 20 %, mettant en évidence un goulot d'étranglement critique dans l'orchestration globale des pipelines, et non seulement dans la génération de code. Les scores sur les tâches DA sont également en moyenne inférieurs à 40 %, soulignant des lacunes profondes en raisonnement ouvert et démontrant que l'ingénierie et l'analyse sont des compétences distinctes. En diagnostiquant clairement ces limites, DAComp fournit un terrain d'essai rigoureux et réaliste pour stimuler le développement d'agents autonomes véritablement capables dans des contextes d'entreprise. Nos données et code sont disponibles à l'adresse https://da-comp.github.io

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp