HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

FDABench: Ein Benchmark für Daten-Agenten bei analytischen Abfragen über heterogene Daten

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

FDABench: Ein Benchmark für Daten-Agenten bei analytischen Abfragen über heterogene Daten

Abstract

Die wachsende Nachfrage nach datenbasierten Entscheidungsfindungen hat einen dringenden Bedarf an Datenagenten geschaffen, die strukturierte und unstrukturierte Daten für Analysen integrieren können. Obwohl Datenagenten vielversprechend erscheinen, um Nutzern die Durchführung komplexer Analyseaufgaben zu ermöglichen, leidet dieser Forschungsbereich derzeit noch unter drei entscheidenden Einschränkungen: Erstens fehlen umfassende Benchmark-Tests für Datenagenten, da die Gestaltung von Testfällen, die die Fähigkeiten von Agenten bei mehrquellenbasierten Analyseaufgaben umfassend bewerten, äußerst schwierig ist; zweitens ist die Erstellung zuverlässiger Testfälle, die strukturierte und unstrukturierte Daten kombinieren, nach wie vor kostspielig und überaus komplex; drittens zeigen bestehende Benchmarks eine begrenzte Anpassungsfähigkeit und Generalisierbarkeit, was zu einem engen Bewertungsspektrum führt.Um diese Herausforderungen zu meistern, stellen wir FDABench vor – den ersten Benchmark speziell für die Bewertung von Datenagenten in mehrquellenbasierten Analyseumgebungen. Unsere Beiträge umfassen: (i) die Erstellung eines standardisierten Benchmarks mit 2.007 vielfältigen Aufgaben aus unterschiedlichen Datenquellen, Domänen, Schwierigkeitsgraden und Aufgabentypen, um die Leistung von Datenagenten umfassend zu evaluieren; (ii) die Entwicklung eines Agent-Experten-Kooperationsframeworks, das eine zuverlässige und effiziente Erstellung des Benchmarks über heterogene Daten gewährleistet; (iii) die Ausstattung von FDABench mit robusten Generalisierungsfähigkeiten für unterschiedliche Ziel-Systeme und -Architekturen. Mit FDABench evaluieren wir verschiedene Datenagentensysteme und stellen dabei fest, dass jedes System hinsichtlich Antwortqualität, Genauigkeit, Latenz und Token-Kosten jeweils spezifische Stärken und Schwächen aufweist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FDABench: Ein Benchmark für Daten-Agenten bei analytischen Abfragen über heterogene Daten | Forschungsarbeiten | HyperAI