Spider: Ein umfangreiches menschlich beschriftetes Datensatz für komplexe und cross-domain semantische Analyse und Text-to-SQL-Aufgaben

Wir stellen Spider vor, eine umfangreiche, komplexe und über mehrere Domains hinweg reichende Datensammlung für semantisches Parsing und Text-zu-SQL-Annotationen, die von 11 Studierenden der Hochschule erstellt wurde. Sie besteht aus 10.181 Fragen und 5.693 einzigartigen komplexen SQL-Abfragen auf 200 Datenbanken mit mehreren Tabellen, die 138 verschiedene Domains abdecken. Wir definieren eine neue, komplexe und über mehrere Domains hinweg reichende Aufgabe des semantischen Parsings und Text-zu-SQL-Umwandlungsprozesses, bei der sich verschiedene komplexe SQL-Abfragen und Datenbanken in den Trainings- und Testsets finden. Auf diese Weise wird das Modell dazu veranlasst, sowohl auf neue SQL-Abfragen als auch auf neue Datenbankschemata gut zu generalisieren. Spider unterscheidet sich von den meisten früheren semantischen Parsing-Aufgaben dadurch, dass diese alle eine einzelne Datenbank und dieselben Programme in den Trainings- und Testsets verwenden. Wir haben verschiedene state-of-the-art Modelle getestet, wobei das beste Modell lediglich eine Genauigkeit von 12,4 % bei exaktem Treffer in einer Datenbank-Split-Einstellung erzielt hat. Dies zeigt, dass Spider eine große Herausforderung für zukünftige Forschungen darstellt. Unser Datensatz und unsere Aufgabe sind öffentlich zugänglich unter https://yale-lily.github.io/spider