17 天前

TAPAS:通过预训练实现弱监督的表格解析

Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno, Julian Martin Eisenschlos
TAPAS:通过预训练实现弱监督的表格解析
摘要

在表格上回答自然语言问题通常被视为一种语义解析任务。为了降低完整逻辑形式的标注成本,一种流行的方法采用弱监督学习,仅使用答案(denotation)而非完整的逻辑形式进行训练。然而,从弱监督中训练语义解析器存在诸多挑战,且生成的逻辑形式仅作为获取最终答案的中间步骤。本文提出TAPAS,一种无需生成逻辑形式即可实现表格问答的方法。TAPAS基于弱监督进行训练,通过选择表格中的单元格,并可选地对所选单元格应用相应的聚合操作,直接预测答案。TAPAS扩展了BERT的架构,将表格作为输入进行编码,利用从维基百科爬取的文本片段与表格进行有效的联合预训练,并实现端到端的训练。我们在三个不同的语义解析数据集上进行了实验,结果表明,TAPAS在性能上优于或媲美现有语义解析模型:在SQA数据集上,将最先进准确率从55.1提升至67.2;在WIKISQL和WIKITQ上达到与当前最优模型相当的性能,且模型结构更为简洁。此外,我们发现,在本设置下迁移学习极为简单有效——从WIKISQL迁移到WIKITQ即可获得48.7的准确率,较当前最优结果高出4.2个百分点。