
摘要
实体链接(Entity Linking, EL)系统在标准基准测试中取得了令人瞩目的成果,这主要得益于近年来预训练语言模型所提供的上下文表征能力。然而,这类系统仍需大量标注数据——数百万个标注样本——才能达到最佳性能,且训练时间往往超过数天,尤其在计算资源有限的情况下更为显著。本文探讨了如何利用命名实体识别(Named Entity Recognition, NER)技术,缩小在高、低标注数据量下训练的EL系统之间的性能差距。具体而言,我们展示了EL系统如何以及在何种程度上借助NER来增强实体表征、优化候选实体选择、选取更具代表性的负样本,并对输出实体施加硬约束与软约束。相关代码与模型检查点已开源,可访问 https://github.com/Babelscape/ner4el 获取。