
摘要
语义网络(如知识图谱)能够利用图结构表示知识。尽管知识图谱在自然语言处理领域展现出巨大潜力,但其普遍存在不完整性问题。本文聚焦于知识图谱补全任务,即通过预测实体之间的关联关系来完善知识图谱,该任务虽为基础但至关重要。语义匹配方法具有潜在优势,因其能够处理未见实体,而基于平移距离的方法在该方面表现不佳。然而,为达到与基于平移距离方法相当的性能,语义匹配方法通常需要大规模训练数据,这在实际应用中往往难以获取。为此,本文引入语言模型,提出一种新型知识图谱架构——LP-BERT,该架构包含两个主要阶段:多任务预训练与知识图谱微调。在预训练阶段,设计三项任务以引导模型从三元组中学习实体间关系,通过预测缺失的实体或关系实现。在微调阶段,受对比学习的启发,我们提出一种基于批次的三元组风格负采样策略,在几乎不增加训练时间的前提下,显著提升了负样本比例。此外,本文还提出一种新的数据增强方法,利用三元组的逆关系来增强模型性能与鲁棒性。为验证所提方法的有效性,我们在三个广泛使用的基准数据集(WN18RR、FB15k-237 和 UMLS)上进行了大量实验。实验结果表明,本文方法显著优于现有方法,在 WN18RR 和 FB15k-237 数据集上均取得了当前最优性能。尤为突出的是,在 WN18RR 数据集上,Hits@10 指标较此前最优结果提升了 5%;在 UMLS 数据集上,Hits@10 达到 100%,充分展现了该方法的优越性与实用性。