DAComp : Évaluation des Agents de données tout au long du cycle de vie de l'intelligence des données
DAComp : Évaluation des Agents de données tout au long du cycle de vie de l'intelligence des données

Résumé
Les flux de travail réels en intelligence des données d'entreprise englobent l'ingénierie des données, qui transforme des sources brutes en tables prêtes à l'analyse, ainsi que l'analyse des données, qui convertit ces tables en insights orientés décision. Nous introduisons DAComp, un benchmark composé de 210 tâches qui reflète fidèlement ces workflows complexes. Les tâches d'ingénierie des données (DE) exigent une ingénierie au niveau du dépôt sur des schémas industriels, incluant la conception et la construction de pipelines SQL multi-étapes à partir de zéro, ainsi que l'évolution de systèmes existants face à des exigences en constante évolution. Les tâches d'analyse des données (DA) posent des problèmes commerciaux à réponse ouverte, nécessitant une planification stratégique, une analyse exploratoire par codage itératif, l'interprétation des résultats intermédiaires, et la synthèse de recommandations actionnables. Les tâches d'ingénierie sont évaluées par une évaluation basée sur l'exécution, utilisant plusieurs métriques. Les tâches à réponse ouverte sont jugées par un juge LLM fiable et expérimentalement validé, guidé par des grilles hiérarchiques et soigneusement conçues. Nos expériences révèlent que même les agents de pointe échouent sur DAComp. Les performances sur les tâches DE sont particulièrement faibles, avec des taux de réussite inférieurs à 20 %, mettant en évidence un goulot d'étranglement critique dans l'orchestration globale des pipelines, et non seulement dans la génération de code. Les scores sur les tâches DA sont également en moyenne inférieurs à 40 %, soulignant des lacunes profondes en raisonnement ouvert et démontrant que l'ingénierie et l'analyse sont des compétences distinctes. En diagnostiquant clairement ces limites, DAComp fournit un terrain d'essai rigoureux et réaliste pour stimuler le développement d'agents autonomes véritablement capables dans des contextes d'entreprise. Nos données et code sont disponibles à l'adresse https://da-comp.github.io
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.