HyperAIHyperAI

Command Palette

Search for a command to run...

Spider: Ein umfangreiches menschlich beschriftetes Datensatz für komplexe und cross-domain semantische Analyse und Text-to-SQL-Aufgaben

Zusammenfassung

Wir stellen Spider vor, eine umfangreiche, komplexe und über mehrere Domains hinweg reichende Datensammlung für semantisches Parsing und Text-zu-SQL-Annotationen, die von 11 Studierenden der Hochschule erstellt wurde. Sie besteht aus 10.181 Fragen und 5.693 einzigartigen komplexen SQL-Abfragen auf 200 Datenbanken mit mehreren Tabellen, die 138 verschiedene Domains abdecken. Wir definieren eine neue, komplexe und über mehrere Domains hinweg reichende Aufgabe des semantischen Parsings und Text-zu-SQL-Umwandlungsprozesses, bei der sich verschiedene komplexe SQL-Abfragen und Datenbanken in den Trainings- und Testsets finden. Auf diese Weise wird das Modell dazu veranlasst, sowohl auf neue SQL-Abfragen als auch auf neue Datenbankschemata gut zu generalisieren. Spider unterscheidet sich von den meisten früheren semantischen Parsing-Aufgaben dadurch, dass diese alle eine einzelne Datenbank und dieselben Programme in den Trainings- und Testsets verwenden. Wir haben verschiedene state-of-the-art Modelle getestet, wobei das beste Modell lediglich eine Genauigkeit von 12,4 % bei exaktem Treffer in einer Datenbank-Split-Einstellung erzielt hat. Dies zeigt, dass Spider eine große Herausforderung für zukünftige Forschungen darstellt. Unser Datensatz und unsere Aufgabe sind öffentlich zugänglich unter https://yale-lily.github.io/spider


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Spider: Ein umfangreiches menschlich beschriftetes Datensatz für komplexe und cross-domain semantische Analyse und Text-to-SQL-Aufgaben | Paper | HyperAI