TaBERT: Pretraining für die gemeinsame Verständniserfassung von textuellen und tabellarischen Daten

In den letzten Jahren hat sich die Entwicklung vortrainierter Sprachmodelle (LMs) für textbasierte Aufgaben im Bereich der natürlichen Sprache (NL) rasant entwickelt. Solche Modelle werden typischerweise auf frei strukturierten NL-Texten trainiert und eignen sich daher möglicherweise nicht für Aufgaben wie die semantische Parsung strukturierter Daten, die eine Schlussfolgerung sowohl über freie NL-Fragen als auch über strukturierte Tabellendaten (z. B. Datenbanktabellen) erfordern. In diesem Artikel stellen wir TaBERT vor, ein vortrainiertes Sprachmodell, das gleichzeitig Darstellungen für NL-Sätze und (halb-)strukturierte Tabellen lernt. TaBERT wurde auf einer großen Korpus von 26 Millionen Tabellen und ihren zugehörigen englischen Kontexten trainiert. In Experimenten erreichen neuronale semantische Parser, die TaBERT als Merkmalsdarstellungsschicht verwenden, neue Bestwerte auf dem anspruchsvollen, schwach beschrifteten Benchmark für semantische Parsung WikiTableQuestions, während sie gleichzeitig wettbewerbsfähige Ergebnisse auf dem Text-zu-SQL-Datensatz Spider erzielen. Die Implementierung des Modells wird unter http://fburl.com/TaBERT verfügbar sein.