Datum

vor 6 Monaten

Organisation

Paper-URL

LuMGoG6lBA

Lizenz

Apache 2.0

Tags

LLM

Natürliche Sprachverarbeitung

Retrieval-Augmented Generation

SSRB ist ein umfangreicher Benchmark-Datensatz für die Abfrage semistrukturierter Daten in natürlicher Sprache. Er wurde 2025 vom Harbin Institute of Technology (Shenzhen) in Zusammenarbeit mit der Hong Kong Polytechnic University, der Tsinghua University und weiteren Institutionen veröffentlicht. Zugehörige Forschungsarbeiten umfassen… SSRB: Direkte Abfragen in natürlicher Sprache an massive heterogene semistrukturierte DatenEs wurde für die NeurIPS 2025 Datasets and Benchmarks ausgewählt, die darauf abzielen, die Fähigkeit des Modells zur Gewinnung semistrukturierter Daten unter komplexen Abfragebedingungen in natürlicher Sprache zu evaluieren und zu fördern. Dieser Datensatz umfasst ca. 14 Millionen semistrukturierte Datenobjekte und 8.485 Testanfragen aus sechs verschiedenen Domänen mit 99 verschiedenen Suchmustern. Jede Anfrage im Datensatz erfüllt die Anforderungen an den Abruf semistrukturierter Daten. Die Anfragebedingungen kombinieren typischerweise präzise Feldübereinstimmungen mit Anforderungen an die semantische Übereinstimmung und können mehrere Felder sowie implizite Inferenz beinhalten. Er dient der systematischen Evaluierung der Fähigkeit des Modells, semistrukturierte Daten unter komplexen Anfragebedingungen abzurufen und zu verstehen.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

Datum

vor 6 Monaten

Organisation

Paper-URL

LuMGoG6lBA

Lizenz

Apache 2.0

Zugehörige Datensätze

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

RoVid-X-Roboter-Videogenerierungsdatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

CCTV-Datensatz Zur Sturzerkennung

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

RoVid-X-Roboter-Videogenerierungsdatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

CCTV-Datensatz Zur Sturzerkennung

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

RoVid-X-Roboter-Videogenerierungsdatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

CCTV-Datensatz Zur Sturzerkennung

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

RoVid-X-Roboter-Videogenerierungsdatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

CCTV-Datensatz Zur Sturzerkennung

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset