GraPPa: Grammar-Augmented Pre-Training für die Tabellen-Semantik-Parserung

Wir stellen GraPPa vor, einen effektiven Vortrainingsansatz für die semantische Analyse von Tabellen, der eine zusammengesetzte induktive Voreingenommenheit in den gemeinsamen Darstellungen von textuellen und tabellarischen Daten lernt. Wir erstellen synthetische Frage-SQL-Paare über hochwertige Tabellen mittels einer synchronen kontextfreien Grammatik (SCFG), die aus bestehenden Text-zu-SQL-Datensätzen abgeleitet wurde. Wir vortrainieren unser Modell auf den synthetischen Daten unter Verwendung eines neuartigen Text-Schema-Verknüpfungsziels, das für jedes Frage-SQL-Paar die syntaktische Rolle eines Tabellenspaltenfeldes in der SQL-Anweisung vorhersagt. Um die Fähigkeit des Modells beizubehalten, reale Welt-Daten angemessen darzustellen, integrieren wir zudem Masked-Language-Modeling (MLM) über mehrere bestehende Tabellen- und Sprach-Datensätze, um den Vortrainingsprozess zu regularisieren. Auf vier gängigen vollständig überwachten und schwach überwachten Benchmarks für die semantische Analyse von Tabellen übertrifft GraPPa RoBERTa-large erheblich als Feature-Representation-Schichten und erreicht auf allen Benchmarks neue SOTA-Ergebnisse (State-of-the-Art).