18 天前
监督式实体链接预训练策略的实证评估
Thibault Févry, Nicholas FitzGerald, Livio Baldini Soares, Tom Kwiatkowski

摘要
在本工作中,我们提出了一种实体链接模型,该模型结合了Transformer架构与基于维基百科链接的大规模预训练。该模型在两个常用实体链接数据集上均取得了当前最优性能:在CoNLL数据集上达到96.7%的准确率,在TAC-KBP数据集上达到94.9%的准确率。我们通过详尽的分析,深入探讨了影响实体链接性能的关键设计因素,包括负样本实体候选的选择、Transformer架构的设计以及输入扰动策略。最后,我们在更具挑战性的场景下也取得了令人鼓舞的结果,包括端到端实体链接任务,以及在缺乏领域内训练数据情况下的实体链接任务。