6 个月前

自然语言处理

自然语言处理

Jonathan Herzig Paweł Krzysztof Nowak Thomas Müller Francesco Piccinno Julian Martin Eisenschlos

摘要

在表格上回答自然语言问题通常被视为一种语义解析任务。为了降低完整逻辑形式的标注成本，一种流行的方法采用弱监督学习，仅使用答案（denotation）而非完整的逻辑形式进行训练。然而，从弱监督中训练语义解析器存在诸多挑战，且生成的逻辑形式仅作为获取最终答案的中间步骤。本文提出TAPAS，一种无需生成逻辑形式即可实现表格问答的方法。TAPAS基于弱监督进行训练，通过选择表格中的单元格，并可选地对所选单元格应用相应的聚合操作，直接预测答案。TAPAS扩展了BERT的架构，将表格作为输入进行编码，利用从维基百科爬取的文本片段与表格进行有效的联合预训练，并实现端到端的训练。我们在三个不同的语义解析数据集上进行了实验，结果表明，TAPAS在性能上优于或媲美现有语义解析模型：在SQA数据集上，将最先进准确率从55.1提升至67.2；在WIKISQL和WIKITQ上达到与当前最优模型相当的性能，且模型结构更为简洁。此外，我们发现，在本设置下迁移学习极为简单有效——从WIKISQL迁移到WIKITQ即可获得48.7的准确率，较当前最优结果高出4.2个百分点。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Jonathan Herzig Paweł Krzysztof Nowak Thomas Müller Francesco Piccinno Julian Martin Eisenschlos

摘要

在表格上回答自然语言问题通常被视为一种语义解析任务。为了降低完整逻辑形式的标注成本，一种流行的方法采用弱监督学习，仅使用答案（denotation）而非完整的逻辑形式进行训练。然而，从弱监督中训练语义解析器存在诸多挑战，且生成的逻辑形式仅作为获取最终答案的中间步骤。本文提出TAPAS，一种无需生成逻辑形式即可实现表格问答的方法。TAPAS基于弱监督进行训练，通过选择表格中的单元格，并可选地对所选单元格应用相应的聚合操作，直接预测答案。TAPAS扩展了BERT的架构，将表格作为输入进行编码，利用从维基百科爬取的文本片段与表格进行有效的联合预训练，并实现端到端的训练。我们在三个不同的语义解析数据集上进行了实验，结果表明，TAPAS在性能上优于或媲美现有语义解析模型：在SQA数据集上，将最先进准确率从55.1提升至67.2；在WIKISQL和WIKITQ上达到与当前最优模型相当的性能，且模型结构更为简洁。此外，我们发现，在本设置下迁移学习极为简单有效——从WIKISQL迁移到WIKITQ即可获得48.7的准确率，较当前最优结果高出4.2个百分点。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供