Command Palette
Search for a command to run...
T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

Abstract
Umfangreiche Forschung wurde unternommen, um die Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) im Bereich der Tabellenreasoning zu untersuchen. Dennoch stellt die grundlegende Aufgabe, Tabelleninformationen in Berichte zu transformieren, weiterhin eine erhebliche Herausforderung für industrielle Anwendungen dar. Dieser Aufgabenbereich leidet unter zwei kritischen Problemen: Erstens führt die Komplexität und Vielfalt von Tabellen zu suboptimalen Reasoning-Ergebnissen; zweitens fehlen bestehende Benchmark-Datenbanken für Tabellen die Fähigkeit, die praktische Anwendbarkeit dieser Aufgabe angemessen zu bewerten. Um diese Lücke zu schließen, schlagen wir die Aufgabe „Table-to-Report“ (T2R) vor und stellen eine zweisprachige Benchmark namens T2R-bench auf, bei der der zentrale Informationsfluss von Tabellen zu Berichten erfolgt. Die Benchmark umfasst 457 industrielle Tabellen, die alle aus realen Szenarien stammen und 19 Branchen sowie vier verschiedene Arten industrieller Tabellen abdecken. Zudem entwickeln wir ein Bewertungskriterium, um die Qualität der Berichterstellung fair und objektiv zu messen. Experimente an 25 weit verbreiteten LLMs zeigen, dass selbst state-of-the-art-Modelle wie Deepseek-R1 nur eine Gesamtleistung von 62,71 erreichen, was darauf hindeutet, dass LLMs auch auf T2R-bench noch erhebliches Verbesserungspotenzial besitzen. Der Quellcode und die Daten werden nach Akzeptanz der Arbeit öffentlich verfügbar gemacht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.