9 天前

100种语言中的实体链接

Jan A. Botha, Zifei Shan, Daniel Gillick
100种语言中的实体链接
摘要

我们提出了一种多语言实体链接的新范式,其中各语言特定的提及(mentions)均指向一个与语言无关的知识库。在此新设定下,我们训练了一个双编码器模型,基于先前研究的改进,引入了更优的特征表示、负样本挖掘策略以及一个辅助的实体配对任务,从而构建出一个可覆盖100多种语言、涵盖2000万个实体的统一实体检索模型。该模型在性能上显著超越了以往在更为受限的跨语言链接任务中取得的最先进结果。然而,在如此大规模的场景下,稀有实体与低资源语言仍构成重大挑战,因此我们主张应更加重视零样本(zero-shot)与少样本(few-shot)评估。为此,我们发布了Mewsli-9——一个全新的大规模多语言数据集(访问地址:http://goo.gle/mewsli-dataset),该数据集与我们的实验设定高度匹配,并展示了基于频率的分析如何为模型设计与训练优化提供了关键洞见。