2 个月前

OmniTab:利用自然数据和合成数据进行少样本表格问答预训练

Zhengbao Jiang; Yi Mao; Pengcheng He; Graham Neubig; Weizhu Chen
OmniTab:利用自然数据和合成数据进行少样本表格问答预训练
摘要

表格中的信息可以作为文本的重要补充,使得基于表格的问题回答(QA)系统具有很高的价值。处理表格的内在复杂性通常会给模型设计和数据标注带来额外的负担。在本文中,我们的目标是开发一种简单的基于表格的QA模型,并尽量减少标注工作量。鉴于基于表格的QA需要实现问题与表格之间的对齐,并具备在多个表格元素上进行复杂推理的能力,我们提出了一种全食性预训练方法,该方法同时利用自然数据和合成数据来赋予模型这些能力。具体而言,对于自由获取的表格,我们通过检索将其与相关的自然句子配对进行基于掩码的预训练,并通过将从表格中采样的SQL转换为自然语言(NL)问题来进行带有QA损失的预训练。我们在少样本和全样本设置下进行了广泛的实验,结果清楚地展示了我们提出的OmniTab模型的优势。最佳多任务方法在128-shot和全样本设置下分别实现了16.2%和2.7%的绝对性能提升,并且在WikiTableQuestions数据集上建立了新的最先进水平。详细的消融实验和分析揭示了自然数据和合成数据的不同特性,为未来全食性预训练的研究方向提供了启示。代码、预训练数据和预训练模型可在https://github.com/jzbjyb/OmniTab 获取。

OmniTab:利用自然数据和合成数据进行少样本表格问答预训练 | 最新论文 | HyperAI超神经