SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache
Datum
Paper-URL
Lizenz
Apache 2.0
SSRB ist ein umfangreicher Benchmark-Datensatz für die Abfrage semistrukturierter Daten in natürlicher Sprache. Er wurde 2025 vom Harbin Institute of Technology (Shenzhen) in Zusammenarbeit mit der Hong Kong Polytechnic University, der Tsinghua University und weiteren Institutionen veröffentlicht. Zugehörige Forschungsarbeiten umfassen… SSRB: Direkte Abfragen in natürlicher Sprache an massive heterogene semistrukturierte DatenEs wurde für die NeurIPS 2025 Datasets and Benchmarks ausgewählt, die darauf abzielen, die Fähigkeit des Modells zur Gewinnung semistrukturierter Daten unter komplexen Abfragebedingungen in natürlicher Sprache zu evaluieren und zu fördern.
Dieser Datensatz umfasst ca. 14 Millionen semistrukturierte Datenobjekte und 8.485 Testanfragen aus sechs verschiedenen Domänen mit 99 verschiedenen Suchmustern. Jede Anfrage im Datensatz erfüllt die Anforderungen an den Abruf semistrukturierter Daten. Die Anfragebedingungen kombinieren typischerweise präzise Feldübereinstimmungen mit Anforderungen an die semantische Übereinstimmung und können mehrere Felder sowie implizite Inferenz beinhalten. Er dient der systematischen Evaluierung der Fähigkeit des Modells, semistrukturierte Daten unter komplexen Anfragebedingungen abzurufen und zu verstehen.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.