HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 6 Tagen

DAComp: Benchmarking von Data Agents über den gesamten Data Intelligence-Lebenszyklus

DAComp: Benchmarking von Data Agents über den gesamten Data Intelligence-Lebenszyklus

Abstract

Real-world-Unternehmensdatenintelligenz-Workflows umfassen Datenengineering, das rohe Datenquellen in analysenfertige Tabellen verwandelt, sowie Datenanalyse, die diese Tabellen in entscheidungsorientierte Erkenntnisse überführt. Wir stellen DAComp vor, eine Benchmark mit 210 Aufgaben, die diese komplexen Workflows abbilden. Datenengineering-(DE-)Aufgaben erfordern ingenieurhafte Arbeit auf Repository-Ebene an industriellen Schemata, darunter das Entwerfen und Aufbauen von mehrstufigen SQL-Pipelines von Grund auf sowie die Weiterentwicklung bestehender Systeme unter sich ändernden Anforderungen. Datenanalyse-(DA-)Aufgaben stellen offene geschäftliche Probleme dar, die strategische Planung, explorative Analyse durch iteratives Codieren, Interpretation von Zwischenergebnissen sowie die Synthese handlungsleitender Empfehlungen erfordern. Ingenieur-Aufgaben werden mittels ausführungsbasierter, mehrdimensionaler Bewertung bewertet. Offene Aufgaben werden durch einen zuverlässigen, experimentell validierten LLM-Judge bewertet, der sich an hierarchisch strukturierten, sorgfältig entworfenen Bewertungsrubriken orientiert. Unsere Experimente zeigen, dass selbst state-of-the-art-Agenten an DAComp scheitern. Die Leistung bei DE-Aufgaben ist besonders niedrig, mit Erfolgsraten unter 20 %, was einen kritischen Engpass bei der ganzheitlichen Pipeline-Orchestrierung aufzeigt, nicht allein bei der Codegenerierung. Die Bewertungsergebnisse bei DA-Aufgaben liegen zudem durchschnittlich unter 40 %, was tiefgreifende Defizite im Bereich offener Schlussfolgerungen offenlegt und belegt, dass Engineering und Analyse unterschiedliche Fähigkeiten darstellen. Durch eine klare Diagnose dieser Einschränkungen bietet DAComp eine strenge und realistische Testumgebung, um die Entwicklung wirklich leistungsfähiger autonomer Datenagenten für unternehmensrelevante Anwendungen voranzutreiben. Unsere Daten und den Quellcode finden Sie unter https://da-comp.github.io

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DAComp: Benchmarking von Data Agents über den gesamten Data Intelligence-Lebenszyklus | Forschungsarbeiten | HyperAI