HyperAIHyperAI

Command Palette

Search for a command to run...

Console

FDAbench – Vollständiger Benchmark-Datensatz Für Die Heterogene Datenanalyse

Date

vor 2 Monaten

Organization

Nanyang Technologische Universität
Nationale Universität von Singapur
Huawei

Paper URL

2509.02473

License

CC BY 4.0

FDAbench-Full ist der erste Benchmark-Satz für heterogene Datenanalyseaufgaben für Datenagenten, der 2025 von der Nanyang Technological University, der National University of Singapore und Huawei Technologies Co., Ltd. veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:FDABench: Ein Benchmark für Datenagenten bei analytischen Abfragen heterogener Daten“, dessen Ziel es ist, die Fähigkeiten des Modells bei der Generierung von Datenbankabfragen, dem SQL-Verständnis und der Analyse von Finanzdaten zu bewerten.

Der Datensatz enthält 2.007 hochwertige Analyseaufgaben, die ein breites Spektrum an Datendomänen, Schwierigkeitsgraden und Aufgabenkategorien abdecken. Jedes Beispiel enthält vollständige Metadatenfelder, darunter: task_id (eindeutige Aufgabenkennung), instance_id (Instanzkennung), db (Datenbankname/-kennung), level (Schwierigkeitsgrad: leicht/mittel/schwer), database_type (Datenbanksystemtyp), question_type (Fragenkategorie), tools_available (Liste der verfügbaren Tools) und query (Hauptfrage/Abfragetext).

Datensatzstruktur

Der Datensatz enthält drei Aufgabentypen:

  • Single-Choice-Fragen: Es gibt 579 sorgfältig gestaltete Fragen mit jeweils nur einer richtigen Antwort. Sie werden hauptsächlich verwendet, um das Verständnis des Modells für Datenbankkonzepte und SQL-Abfragen zu testen.
  • Multiple-Choice-Fragen (Multiple): Insgesamt 760 komplexe Fragen mit mehreren möglichen richtigen Antworten. Sie enthalten präzise numerische Berechnungsergebnisse und Schlussfolgerungen auf der Grundlage von Schlussfolgerungen und dienen zur Bewertung der umfassenden Leistung des Modells bei der Datenanalyse und den Schlussfolgerungsfähigkeiten.
  • Berichterstellung (Bericht): Insgesamt 668 Fragen erfordern die Erstellung detaillierter Analyseberichte, testen die Fähigkeit des Datenagenten, umfassende Analysen in einer Umgebung mit mehreren Datenquellen durchzuführen und einen Standardbericht als vergleichenden Bewertungsmaßstab bereitzustellen.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp