
摘要
近年来,面向基于文本的自然语言(NL)理解任务,预训练语言模型(LMs)迅速发展。这类模型通常在自由形式的自然语言文本上进行训练,因此在处理如结构化数据上的语义解析等任务时可能表现不佳,这类任务需要对自由形式的自然语言问题与结构化表格数据(例如数据库表)进行联合推理。本文提出TaBERT,一种能够联合学习自然语言句子与(半)结构化表格表示的预训练语言模型。TaBERT在包含2600万张表格及其英文上下文的大规模语料库上进行训练。实验结果表明,采用TaBERT作为特征表示层的神经语义解析模型,在具有挑战性的弱监督语义解析基准数据集WikiTableQuestions上取得了新的最优性能,同时在文本到SQL数据集Spider上也表现出具有竞争力的性能。该模型的实现代码将发布于 http://fburl.com/TaBERT。