Command Palette
Search for a command to run...
GraPPa: Grammar-Augmented Pre-Training für die Tabellen-Semantik-Parserung
GraPPa: Grammar-Augmented Pre-Training für die Tabellen-Semantik-Parserung
Tao Yu Chien-Sheng Wu Xi Victoria Lin Bailin Wang Yi Chern Tan Xinyi Yang Dragomir Radev Richard Socher Caiming Xiong
Zusammenfassung
Wir stellen GraPPa vor, einen effektiven Vortrainingsansatz für die semantische Analyse von Tabellen, der eine zusammengesetzte induktive Voreingenommenheit in den gemeinsamen Darstellungen von textuellen und tabellarischen Daten lernt. Wir erstellen synthetische Frage-SQL-Paare über hochwertige Tabellen mittels einer synchronen kontextfreien Grammatik (SCFG), die aus bestehenden Text-zu-SQL-Datensätzen abgeleitet wurde. Wir vortrainieren unser Modell auf den synthetischen Daten unter Verwendung eines neuartigen Text-Schema-Verknüpfungsziels, das für jedes Frage-SQL-Paar die syntaktische Rolle eines Tabellenspaltenfeldes in der SQL-Anweisung vorhersagt. Um die Fähigkeit des Modells beizubehalten, reale Welt-Daten angemessen darzustellen, integrieren wir zudem Masked-Language-Modeling (MLM) über mehrere bestehende Tabellen- und Sprach-Datensätze, um den Vortrainingsprozess zu regularisieren. Auf vier gängigen vollständig überwachten und schwach überwachten Benchmarks für die semantische Analyse von Tabellen übertrifft GraPPa RoBERTa-large erheblich als Feature-Representation-Schichten und erreicht auf allen Benchmarks neue SOTA-Ergebnisse (State-of-the-Art).