3 个月前

利用成对共现信息提升大规模数据集上的知识图谱补全性能

Esma Balkir, Masha Naslidnyk, Dave Palfrey, Arpit Mittal
利用成对共现信息提升大规模数据集上的知识图谱补全性能
摘要

双线性模型(如DistMult和ComplEx)在知识图谱(Knowledge Graph, KG)补全任务中表现出色。然而,这类模型通常需要较大的批量大小(batch size),在大规模数据集上训练时,受限于内存容量,这一需求往往成为性能瓶颈。本文提出一种基于数据集中实体-关系对出现频次的联合学习机制,用于提升训练过程中负样本采样的质量。实验结果表明,在三个标准数据集上,当上述两种技术相结合时,模型性能显著提升,尤其在批量大小及生成的负样本数量相对于数据集规模较小时,优势更为明显。此外,我们将该方法应用于包含200万实体的大规模数据集,结果表明,相较于基线模型,本模型在Hits@1指标上取得了2.8%的绝对性能提升。