SSTQA – Halbstrukturierter Tabellarischer Datensatz Zur Beantwortung Von Fragen
Datum
Veröffentlichungs-URL
Paper-URL
SSTQA ist ein Benchmark-Datensatz für halbstrukturierte Tabellenfragen-Antwortaufgaben, der 2025 von der Shanghai Jiao Tong University, der Simon Fraser University, der Tsinghua University und anderen Institutionen veröffentlicht wurde. Die relevanten Ergebnisse des Papiers sind „ST-Raptor: LLM-gestützte Beantwortung von Fragen anhand halbstrukturierter Tabellen", dessen Ziel es ist, das Verständnis und die Antwortfähigkeiten von groß angelegten Sprachmodellen und Tabellenfrage-Antwortsystemen zu testen, wenn sie mit komplexen Layouts in echten Tabellen konfrontiert werden (wie z. B. zusammengeführte Zellen, hierarchische Überschriften, mehrstufige Verschachtelung usw.).
Dieser Datensatz enthält 102 komplexe, praxisnahe Tabellen und 764 zugehörige Fragen, die 19 repräsentative Anwendungsszenarien aus der Praxis abdecken. Tabellenmerkmale wie verschachtelte Zellen, mehrstufige Überschriften und unregelmäßige Layouts spiegeln die strukturelle Komplexität realer Probleme wider. Frage-Antwort-Paare werden durch eine Kombination aus automatischer Generierung und manueller Überprüfung erstellt und in drei Schwierigkeitsstufen eingeteilt: leicht, mittel und schwer. Der Datensatz deckt Aufgaben vom direkten Abruf bis hin zu komplexen Schlussfolgerungen ab und sorgt so für abwechslungsreiche und anspruchsvolle Aufgaben.
Dieser Datensatz behebt die Probleme bestehender halbstrukturierter Datensätze, wie z. B. geringen Maßstab, einfache Struktur und die Trennung von realen Anwendungen. Er zeichnet sich durch eine komplexe Struktur, umfangreiche Szenarien, klare Schwierigkeitsgrade und hochwertige Annotationen aus. Er eignet sich für das Training und die Evaluierung großer multimodaler Modelle und Tabellen-Frage-Antwort-Systeme und ist ein wichtiger Maßstab für die Förderung des Tabellenverständnisses und intelligenter Anwendungen.