
摘要
网络上的关系表存储了大量知识。由于这些表格的丰富性,关系表理解领域的各种任务取得了巨大进展。然而,现有的研究通常依赖于高度工程化的任务特定特征和模型架构。本文中,我们提出了TURL,这是一种新颖的框架,将预训练/微调范式引入到关系网络表中。在预训练阶段,我们的框架以无监督的方式学习关系表的深度上下文表示。通过预训练表示的通用模型设计,可以将其应用于广泛的任务,而仅需进行少量的任务特定微调。具体而言,我们提出了一种结构感知的Transformer编码器来建模关系表的行-列结构,并为预训练提出了一种新的掩码实体恢复(MER)目标,以捕捉大规模未标注数据中的语义和知识。我们使用包含6个不同任务的关系表理解基准对TURL进行了系统评估(例如,关系抽取、单元格填充)。结果表明,TURL在所有任务上都表现出良好的泛化能力,并且在几乎所有情况下显著优于现有方法。