Command Palette
Search for a command to run...
FDABench: Ein Benchmark für Daten-Agenten bei analytischen Abfragen über heterogene Daten
Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

Abstract
Die wachsende Nachfrage nach datenbasierten Entscheidungsfindungen hat einen dringenden Bedarf an Datenagenten geschaffen, die strukturierte und unstrukturierte Daten für Analysen integrieren können. Obwohl Datenagenten vielversprechend erscheinen, um Nutzern die Durchführung komplexer Analyseaufgaben zu ermöglichen, leidet dieser Forschungsbereich derzeit noch unter drei entscheidenden Einschränkungen: Erstens fehlen umfassende Benchmark-Tests für Datenagenten, da die Gestaltung von Testfällen, die die Fähigkeiten von Agenten bei mehrquellenbasierten Analyseaufgaben umfassend bewerten, äußerst schwierig ist; zweitens ist die Erstellung zuverlässiger Testfälle, die strukturierte und unstrukturierte Daten kombinieren, nach wie vor kostspielig und überaus komplex; drittens zeigen bestehende Benchmarks eine begrenzte Anpassungsfähigkeit und Generalisierbarkeit, was zu einem engen Bewertungsspektrum führt.Um diese Herausforderungen zu meistern, stellen wir FDABench vor – den ersten Benchmark speziell für die Bewertung von Datenagenten in mehrquellenbasierten Analyseumgebungen. Unsere Beiträge umfassen: (i) die Erstellung eines standardisierten Benchmarks mit 2.007 vielfältigen Aufgaben aus unterschiedlichen Datenquellen, Domänen, Schwierigkeitsgraden und Aufgabentypen, um die Leistung von Datenagenten umfassend zu evaluieren; (ii) die Entwicklung eines Agent-Experten-Kooperationsframeworks, das eine zuverlässige und effiziente Erstellung des Benchmarks über heterogene Daten gewährleistet; (iii) die Ausstattung von FDABench mit robusten Generalisierungsfähigkeiten für unterschiedliche Ziel-Systeme und -Architekturen. Mit FDABench evaluieren wir verschiedene Datenagentensysteme und stellen dabei fest, dass jedes System hinsichtlich Antwortqualität, Genauigkeit, Latenz und Token-Kosten jeweils spezifische Stärken und Schwächen aufweist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.