TAPEX: Tabellen-Vortraining durch das Lernen eines neuronalen SQL-Executors

Neuere Fortschritte im Bereich der Vortrainung von Sprachmodellen haben durch die Nutzung umfangreicher unstrukturierter textbasierter Daten einen großen Erfolg erzielt. Allerdings stellt die Anwendung der Vortrainierung auf strukturierte tabellarische Daten weiterhin eine Herausforderung dar, aufgrund des Mangels an umfangreichen, hochwertigen tabellarischen Daten. In dieser Arbeit schlagen wir TAPEX vor, um zu zeigen, dass die Tabelle-Vortrainierung durch das Lernen eines neuronalen SQL-Interpreters über ein synthetisches Korpus erreicht werden kann, das durch automatische Synthese ausführbarer SQL-Abfragen und deren Ausführungsoutputs gewonnen wird. TAPEX bewältigt die Herausforderung der Datensparnis, indem es das Sprachmodell anleitet, einen SQL-Interpreter auf einem vielfältigen, umfangreichen und hochwertigen synthetischen Korpus nachzuahmen. Wir evaluieren TAPEX anhand von vier Benchmark-Datensätzen. Die experimentellen Ergebnisse zeigen, dass TAPEX deutlich bessere Leistungen als frühere Ansätze zur Tabelle-Vortrainierung erzielt und neue Standarteinstellungen in allen vier Datensätzen erreicht. Dies beinhaltet Verbesserungen der schwach überwachten WikiSQL-Denotationsgenauigkeit auf 89,5 % (+2,3 %), der WikiTableQuestions-Denotationsgenauigkeit auf 57,5 % (+4,8 %), der SQA-Denotationsgenauigkeit auf 74,5 % (+3,5 %) und der TabFact-Genauigkeit auf 84,2 % (+3,2 %). Nach unserem Wissen ist dies die erste Arbeit, die Tabelle-Vortrainierung durch synthetische ausführbare Programme nutzt und neue Standarteinstellungen bei verschiedenen Downstream-Aufgaben erreicht. Unser Code ist unter https://github.com/microsoft/Table-Pretraining verfügbar.