vor 11 Tagen

KaggleDBQA: Realistische Bewertung von Text-zu-SQL-Parsern

Chia-Hsuan Lee, Oleksandr Polozov, Matthew Richardson

Abstract

Das Ziel der Datenbank-Fragebeantwortung besteht darin, die natürliche Sprache-Abfrage realer relationaler Datenbanken in unterschiedlichen Anwendungsbereichen zu ermöglichen. In jüngster Zeit haben großskalige Datensätze wie Spider und WikiSQL neue Modellierungsansätze für die Text-zu-SQL-Parsetechnik gefördert und die Zero-shot-Verallgemeinerungsfähigkeit auf bisher unbekannte Datenbanken verbessert. In dieser Arbeit untersuchen wir die Herausforderungen, die diese Techniken weiterhin vor der praktischen Anwendung bewahren. Erstens präsentieren wir KaggleDBQA, einen neuen, überdomänen-orientierten Evaluationsdatensatz realer Web-Datenbanken, der domänenspezifische Datentypen, ursprüngliche Formatierungen und uneingeschränkte Fragen enthält. Zweitens überprüfen wir erneut die Auswahl der Evaluierungsaufgaben für Text-zu-SQL-Parser im Kontext realer Anwendungsszenarien. Schließlich ergänzen wir unsere In-Domain-Evaluierungsaufgabe durch Datenbankdokumentation, eine natürlich vorkommende Quelle impliziten Domänenwissens. Wir zeigen, dass KaggleDBQA eine Herausforderung für aktuelle State-of-the-Art-Zero-shot-Parser darstellt, doch eine realistischere Evaluierungsumgebung sowie kreative Nutzung der zugehörigen Datenbankdokumentation die Genauigkeit um über 13,2 % steigern – die Leistung wird damit mehr als verdoppelt.