Semantische Analyse mit syntax- und tabellenbewusster SQL-Generierung

Wir präsentieren ein generatives Modell zur Umwandlung von natürlichsprachlichen Fragen in SQL-Abfragen. Bestehende neuronale Ansätze erzeugen in der Regel SQL-Abfragen wortweise, jedoch sind ein Großteil der generierten Ergebnisse aufgrund des Missverhältnisses zwischen Fragebegriffen und Tabelleninhalten fehlerhaft oder nicht ausführbar. Unser Ansatz löst dieses Problem, indem er die Struktur der Tabelle und die Syntax der SQL-Sprache berücksichtigt. Die Qualität der generierten SQL-Abfrage wird durch (1) das Lernen, Inhalte aus Spaltennamen, Zellen oder SQL-Schlüsselwörtern zu replizieren; und (2) die Verbesserung der Generierung des WHERE-Klausels unter Verwendung der Beziehung zwischen Spalte und Zelle signifikant gesteigert. Experimente wurden auf WikiSQL durchgeführt, einem kürzlich veröffentlichten Datensatz mit den größten Frage-SQL-Paaren. Unser Ansatz verbessert den Stand der Technik hinsichtlich der Ausführungsgenauigkeit von 69,0 % auf 74,4 %.