RAT-SQL: relationenbewusste Schema-Encoding und -Verknüpfung für Text-zu-SQL-Parser

Beim Übersetzen natürlicher Sprachfragen in SQL-Abfragen zur Beantwortung von Datenbankanfragen stoßen moderne semantische Parsing-Modelle auf Schwierigkeiten, wenn sie auf bisher unbekannte Datenbankschemata angewendet werden. Das Generalisierungsproblem ergibt sich aus zwei Hauptaspekten: (a) der effektiven Kodierung der Datenbankrelationen auf eine für den semantischen Parser zugängliche Weise und (b) der Modellierung der Zuordnung zwischen Datenbankspalten und ihren Erwähnungen in einer gegebenen Abfrage. Wir präsentieren einen einheitlichen Rahmen, basierend auf einem relationenbewussten Selbst-Attention-Mechanismus, um die Schemakodierung, das Schemalinking und die Merkmalsdarstellung innerhalb eines Text-zu-SQL-Encoders zu adressieren. Auf dem anspruchsvollen Spider-Datensatz steigert dieser Rahmen die Genauigkeit der exakten Übereinstimmung auf 57,2 % und übertrifft damit die besten bisherigen Ansätze um 8,7 Prozentpunkte. Durch zusätzliche Integration von BERT erreicht das Modell eine neue state-of-the-art-Leistung von 65,6 % auf der Spider-Platzierung. Darüber hinaus beobachten wir qualitative Verbesserungen im Verständnis des Modells hinsichtlich Schemalinking und Zuordnung. Die Implementierung wird unter https://github.com/Microsoft/rat-sql öffentlich verfügbar gemacht.