HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

Abstract

Umfangreiche Forschung wurde unternommen, um die Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) im Bereich der Tabellenreasoning zu untersuchen. Dennoch stellt die grundlegende Aufgabe, Tabelleninformationen in Berichte zu transformieren, weiterhin eine erhebliche Herausforderung für industrielle Anwendungen dar. Dieser Aufgabenbereich leidet unter zwei kritischen Problemen: Erstens führt die Komplexität und Vielfalt von Tabellen zu suboptimalen Reasoning-Ergebnissen; zweitens fehlen bestehende Benchmark-Datenbanken für Tabellen die Fähigkeit, die praktische Anwendbarkeit dieser Aufgabe angemessen zu bewerten. Um diese Lücke zu schließen, schlagen wir die Aufgabe „Table-to-Report“ (T2R) vor und stellen eine zweisprachige Benchmark namens T2R-bench auf, bei der der zentrale Informationsfluss von Tabellen zu Berichten erfolgt. Die Benchmark umfasst 457 industrielle Tabellen, die alle aus realen Szenarien stammen und 19 Branchen sowie vier verschiedene Arten industrieller Tabellen abdecken. Zudem entwickeln wir ein Bewertungskriterium, um die Qualität der Berichterstellung fair und objektiv zu messen. Experimente an 25 weit verbreiteten LLMs zeigen, dass selbst state-of-the-art-Modelle wie Deepseek-R1 nur eine Gesamtleistung von 62,71 erreichen, was darauf hindeutet, dass LLMs auch auf T2R-bench noch erhebliches Verbesserungspotenzial besitzen. Der Quellcode und die Daten werden nach Akzeptanz der Arbeit öffentlich verfügbar gemacht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp