2 个月前

TAPEX:通过学习神经SQL执行器进行表格预训练

Qian Liu; Bei Chen; Jiaqi Guo; Morteza Ziyadi; Zeqi Lin; Weizhu Chen; Jian-Guang Lou
TAPEX:通过学习神经SQL执行器进行表格预训练
摘要

近期在语言模型预训练方面取得的重大进展,主要是通过利用大规模的非结构化文本数据实现的。然而,由于缺乏大规模的高质量表格数据,将预训练应用于结构化表格数据仍然是一个挑战。本文提出了一种名为TAPEX的方法,表明可以通过在合成语料库上学习神经SQL执行器来实现表格预训练,该合成语料库是通过自动合成可执行的SQL查询及其执行输出获得的。TAPEX通过引导语言模型在多样化的、大规模的和高质量的合成语料库上模仿SQL执行器,解决了数据稀缺的问题。我们在四个基准数据集上对TAPEX进行了评估。实验结果表明,TAPEX大幅超越了以往的表格预训练方法,并在所有这些数据集上取得了新的最佳结果。这包括在弱监督WikiSQL表示准确性上的提升至89.5%(+2.3%),WikiTableQuestions表示准确性上的提升至57.5%(+4.8%),SQA表示准确性上的提升至74.5%(+3.5%),以及TabFact准确性上的提升至84.2%(+3.2%)。据我们所知,这是首次通过合成可执行程序探索表格预训练,并在各种下游任务中取得新的最佳结果的工作。我们的代码可以在https://github.com/microsoft/Table-Pretraining 获取。

TAPEX:通过学习神经SQL执行器进行表格预训练 | 最新论文 | HyperAI超神经