HyperAIHyperAI

Command Palette

Search for a command to run...

FDAbench – Vollständiger Benchmark-Datensatz Für Die Heterogene Datenanalyse

Datum

vor 19 Tagen

Organisation

Nanyang Technologische Universität
Nationale Universität von Singapur

Paper-URL

2509.02473

Lizenz

CC BY 4.0

FDAbench-Full ist der erste Benchmark-Satz für heterogene Datenanalyseaufgaben für Datenagenten, der 2025 von der Nanyang Technological University, der National University of Singapore und Huawei Technologies Co., Ltd. veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:FDABench: Ein Benchmark für Datenagenten bei analytischen Abfragen heterogener Daten“, dessen Ziel es ist, die Fähigkeiten des Modells bei der Generierung von Datenbankabfragen, dem SQL-Verständnis und der Analyse von Finanzdaten zu bewerten.

Der Datensatz enthält 2.007 hochwertige Analyseaufgaben, die ein breites Spektrum an Datendomänen, Schwierigkeitsgraden und Aufgabenkategorien abdecken. Jedes Beispiel enthält vollständige Metadatenfelder, darunter: task_id (eindeutige Aufgabenkennung), instance_id (Instanzkennung), db (Datenbankname/-kennung), level (Schwierigkeitsgrad: leicht/mittel/schwer), database_type (Datenbanksystemtyp), question_type (Fragenkategorie), tools_available (Liste der verfügbaren Tools) und query (Hauptfrage/Abfragetext).

Datensatzstruktur

Der Datensatz enthält drei Aufgabentypen:

  • Single-Choice-Fragen: Es gibt 579 sorgfältig gestaltete Fragen mit jeweils nur einer richtigen Antwort. Sie werden hauptsächlich verwendet, um das Verständnis des Modells für Datenbankkonzepte und SQL-Abfragen zu testen.
  • Multiple-Choice-Fragen (Multiple): Insgesamt 760 komplexe Fragen mit mehreren möglichen richtigen Antworten. Sie enthalten präzise numerische Berechnungsergebnisse und Schlussfolgerungen auf der Grundlage von Schlussfolgerungen und dienen zur Bewertung der umfassenden Leistung des Modells bei der Datenanalyse und den Schlussfolgerungsfähigkeiten.
  • Berichterstellung (Bericht): Insgesamt 668 Fragen erfordern die Erstellung detaillierter Analyseberichte, testen die Fähigkeit des Datenagenten, umfassende Analysen in einer Umgebung mit mehreren Datenquellen durchzuführen und einen Standardbericht als vergleichenden Bewertungsmaßstab bereitzustellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FDAbench – Vollständiger Benchmark-Datensatz Für Die Heterogene Datenanalyse | Datensätze | HyperAI