Command Palette
Search for a command to run...
FDAbench – Vollständiger Benchmark-Datensatz Für Die Heterogene Datenanalyse
Datum
Paper-URL
Lizenz
CC BY 4.0
FDAbench-Full ist der erste Benchmark-Satz für heterogene Datenanalyseaufgaben für Datenagenten, der 2025 von der Nanyang Technological University, der National University of Singapore und Huawei Technologies Co., Ltd. veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:FDABench: Ein Benchmark für Datenagenten bei analytischen Abfragen heterogener Daten“, dessen Ziel es ist, die Fähigkeiten des Modells bei der Generierung von Datenbankabfragen, dem SQL-Verständnis und der Analyse von Finanzdaten zu bewerten.
Der Datensatz enthält 2.007 hochwertige Analyseaufgaben, die ein breites Spektrum an Datendomänen, Schwierigkeitsgraden und Aufgabenkategorien abdecken. Jedes Beispiel enthält vollständige Metadatenfelder, darunter: task_id (eindeutige Aufgabenkennung), instance_id (Instanzkennung), db (Datenbankname/-kennung), level (Schwierigkeitsgrad: leicht/mittel/schwer), database_type (Datenbanksystemtyp), question_type (Fragenkategorie), tools_available (Liste der verfügbaren Tools) und query (Hauptfrage/Abfragetext).
Datensatzstruktur
Der Datensatz enthält drei Aufgabentypen:
- Single-Choice-Fragen: Es gibt 579 sorgfältig gestaltete Fragen mit jeweils nur einer richtigen Antwort. Sie werden hauptsächlich verwendet, um das Verständnis des Modells für Datenbankkonzepte und SQL-Abfragen zu testen.
 - Multiple-Choice-Fragen (Multiple): Insgesamt 760 komplexe Fragen mit mehreren möglichen richtigen Antworten. Sie enthalten präzise numerische Berechnungsergebnisse und Schlussfolgerungen auf der Grundlage von Schlussfolgerungen und dienen zur Bewertung der umfassenden Leistung des Modells bei der Datenanalyse und den Schlussfolgerungsfähigkeiten.
 - Berichterstellung (Bericht): Insgesamt 668 Fragen erfordern die Erstellung detaillierter Analyseberichte, testen die Fähigkeit des Datenagenten, umfassende Analysen in einer Umgebung mit mehreren Datenquellen durchzuführen und einen Standardbericht als vergleichenden Bewertungsmaßstab bereitzustellen.
 
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.