2 个月前
PASTA:通过句子表格完形预训练实现表操作感知的事实验证
Zihui Gu; Ju Fan; Nan Tang; Preslav Nakov; Xiaoman Zhao; Xiaoyong Du

摘要
事实验证近年来吸引了大量研究关注,例如在新闻业、市场营销和政策制定等领域,因为在线上的虚假信息和错误信息可能会左右人们的观点并影响其行为。尽管事实核查总体上是一项艰巨的任务,但在许多情况下,基于可靠信息表的数据分析可以轻松揭穿虚假陈述。因此,基于表格的事实验证最近成为了一个重要且不断发展的研究领域。然而,由于缺乏可用于预训练语言模型(LMs)以识别常见表格操作(如列聚合或元组比较)的数据集,进展受到了限制。为了解决这一问题,本文介绍了PASTA,一种通过合成句子-表格完形填空问题进行预训练的新型前沿框架,用于基于表格的事实验证。具体而言,我们设计了六种常见的句子-表格完形填空任务类型,包括过滤(Filter)、聚合(Aggregation)、最高级(Superlative)、比较(Comparative)、序数(Ordinal)和唯一值(Unique)。基于这些任务类型,我们从WikiTables中合成了一个包含120万句子-表格对的大规模语料库。PASTA采用了近期的预训练语言模型DeBERTaV3,并在此基础上进一步对其进行预训练。实验结果表明,PASTA在两个基于表格的事实验证基准数据集TabFact和SEM-TAB-FACTS上取得了新的最先进性能。特别是在复杂的TabFact数据集中,该数据集包含多种操作,PASTA大幅超越了之前的最先进水平4.7个百分点(85.6% vs. 80.9%),而在较小的TabFact测试集上,PASTA与人类表现之间的差距缩小到了仅1.5个百分点(90.6% vs. 92.1%)。