9 天前
多语言自回归实体链接
Nicola De Cao, Ledell Wu, Kashyap Popat, Mikel Artetxe, Naman Goyal, Mikhail Plekhanov, Luke Zettlemoyer, Nicola Cancedda, Sebastian Riedel, Fabio Petroni

摘要
我们提出了mGENRE,这是一种用于多语言实体链接(Multilingual Entity Linking, MEL)问题的序列到序列(sequence-to-sequence)系统——该任务旨在将特定语言中的提及(mention)映射到多语言知识库(Knowledge Base, KB)中的目标实体。对于给定语言中的一个提及,mGENRE采用自回归(autoregressive)方式,从左到右逐token地预测目标实体的名称。这种自回归建模方式使得系统能够高效地跨编码提及字符串与实体名称,从而捕捉比传统方法中提及向量与实体向量之间的点积运算更为丰富的交互信息。此外,该方法无需依赖大规模向量索引或提及表中的预存提及,即可在大型知识库中实现快速检索。与以往MEL方法仅对每个实体使用单一表示不同,mGENRE在匹配过程中尽可能利用多种语言的实体名称,从而有效挖掘源语言输入与目标实体名称之间的语言关联性。更重要的是,在完全无训练数据的零样本(zero-shot)场景下,mGENRE将目标语言视为一个在预测阶段进行边缘化(marginalized)的隐变量,显著提升了模型的泛化能力。实验结果表明,该方法在平均准确率上实现了超过50%的性能提升。我们通过在三个主流MEL基准数据集上的大量实验,充分验证了所提方法的有效性。mGENRE在各项任务中均取得了新的最先进(state-of-the-art)性能。相关代码与预训练模型已开源,详见:https://github.com/facebookresearch/GENRE。