11 天前

基于生成增强预训练的语义解析上下文表示学习

Peng Shi, Patrick Ng, Zhiguo Wang, Henghui Zhu, Alexander Hanbo Li, Jun Wang, Cicero Nogueira dos Santos, Bing Xiang

摘要

最近，研究人员对利用大规模文本语料库，通过自监督学习目标（如掩码语言模型，Masked Language Model, MLM）训练大规模神经语言模型，以学习适用于各类自然语言处理任务的上下文表征表现出浓厚兴趣。然而，基于一项初步研究，我们发现现有通用语言模型在应用于文本到SQL语义解析任务时存在三个主要问题：难以识别话语中提及的列名、无法从单元格值中推断出列名，以及难以生成复杂的SQL查询。为缓解上述问题，我们提出一种模型预训练框架——生成增强型预训练（Generation-Augmented Pre-training, GAP），该框架通过利用生成模型生成预训练数据，联合学习自然语言话语与表格模式（table schema）的表征。GAP模型在200万组话语-模式对以及3万组话语-模式-SQL三元组上进行训练，其中话语均由生成模型生成。实验结果表明，采用GAP模型作为表征编码器的神经语义解析器，在SPIDER和CRITERIA-TO-SQL两个基准测试上均取得了新的最先进性能（state-of-the-art）。