Command Palette
Search for a command to run...
Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz
Datum
Paper-URL
Lizenz
Apache 2.0
Verbatim Spans ist ein domänenübergreifender Datensatz zur bedingten Abfrageextraktion, der im April 2026 von der TU Wien in Zusammenarbeit mit KRLabs veröffentlicht wurde. Die zugehörige Forschungsarbeit lautet wie folgt: ACL-Verbatim: Halluzinationsfreies Frage-Antwort-System für die ForschungZiel ist es, einen allgemeinen Benchmark für das Training von Modellen zur Extraktion von Abfragebedingungen zu erstellen, der in großem Umfang bei Retrieval Augmentation Generation (RAG) und extraktiven Fragebeantwortungsaufgaben eingesetzt werden kann. Dieser Datensatz enthält 174.383 Zeilen Trainingsdaten und 20.174 Zeilen Validierungsdaten und deckt drei Haupttypen von Korpora ab: Artikel zur Verarbeitung natürlicher Sprache, domänenübergreifende Frage-Antwort-Systeme sowie Code- und Tool-Ausgaben, die jeweils Aufgaben der Beweisannotation auf Absatz-, Satz- bzw. Codeblockebene entsprechen.
Datenquelle
- ACL Silver: Umfasst NLP-Forschungsarbeiten unter Verwendung von Annotationsstandards auf Absatzebene. Nach der Bereinigung und Filterung enthält es 20.916 Trainingsdatenpunkte und 2.319 Validierungsdatenpunkte und stellt somit nur eine Teilmenge des ursprünglichen Korpus dar.
- RAGBench deckt die Bereiche Finanzen, Gesundheitswesen, Recht und allgemeine Frage-Antwort-Systeme ab und verwendet Annotationsstandards auf Satzebene sowie eine Version mit ausgewogener Stichprobenziehung und Obergrenzen. Der finale Datensatz umfasst 101.550 Trainingsdatenpunkte und 15.276 Validierungsdatenpunkte.
- Squeez: Umfasst sowohl Code als auch die Ausgabe des SWE-Bench-Tools unter Verwendung von Codeblock-/Zeilenbereichsannotationsspezifikationen und extrahiert strukturierte Daten aus 51.917 Zeilen Trainingsdaten und 2.579 Zeilen Validierungsdaten.
Zitat
@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.