Datum

vor 2 Jahren

Größe

16.01 MB

Organisation

Veröffentlichungs-URL

tablebench.github.io

Paper-URL

arxiv.org

Tags

LLM

Natürliche Sprachverarbeitung

Intelligente Fragebeantwortung

Reasoning

Um die Fähigkeiten von LLM bei der Beantwortung von Tabellenfragen besser bewerten zu können, haben die Forschungsteams der Beihang University, der University of Waterloo, der Fudan University und der Beijing Information Science and Technology University gemeinsam den Benchmark für die Beantwortung von Tabellenfragen von TableBench veröffentlicht. Die entsprechenden Ergebnisse der Studie sind „TableBench: Ein umfassender und komplexer Benchmark für die Beantwortung von Tabellenfragen". TableBench ist ein von Menschen kommentierter, umfassender und komplexer TableQA-Benchmark mit 886 Beispielen in 18 Domänen, der die Überprüfung von Fakten, das numerische Denken, die Datenanalyse und Visualisierungsaufgaben erleichtern soll. Darüber hinaus hat das Team das umfangreiche Anweisungskorpus TableInstruct als Open Source bereitgestellt, das LLM mit verschiedenen Schlussfolgerungsmethoden anleiten soll.

TableBench.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 259Gesamtdownloads 278

TableBench/
- README.md
  1.4 KB
- README.txt
  2.8 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

16.01 MB

Organisation

Veröffentlichungs-URL

tablebench.github.io

Paper-URL

arxiv.org

Zugehörige Datensätze

CHOCLO Lateinamerikanischer Kultur-Benchmark-Datensatz

vor 2 Monaten

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

vor 2 Monaten

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

vor 4 Monaten

Open-RL Inferenzproblem-Datensatz

vor 4 Monaten

RubricHub_v1 Multi-Domain Generative Task Dataset

vor 5 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

vor 5 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 6 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

TxT360-3efforts Multi-Task Inference Dataset

vor 6 Monaten

LongBench-Pro Long Context Comprehensive Evaluation Dataset

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TischBank

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TischBank

Zugehörige Datensätze

CHOCLO Lateinamerikanischer Kultur-Benchmark-Datensatz

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TischBank

Zugehörige Datensätze

CHOCLO Lateinamerikanischer Kultur-Benchmark-Datensatz

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

CHOCLO Lateinamerikanischer Kultur-Benchmark-Datensatz

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

CHOCLO Lateinamerikanischer Kultur-Benchmark-Datensatz

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset