
摘要
知识图谱(Knowledge Graph, KG)嵌入是数据挖掘研究中的一个基本问题,具有许多实际应用。其目标是将图中的实体和关系编码到低维向量空间中,以便用于后续算法。负采样是从训练数据中未观察到的三元组中抽取负样本的一个重要步骤。最近,生成对抗网络(Generative Adversarial Network, GAN)被引入到负采样中。通过采样得分较高的负三元组,这些方法避免了梯度消失的问题,从而获得了更好的性能。然而,使用GAN使得原始模型更加复杂且难以训练,必须采用强化学习进行训练。本文受观察启发,认为得分较高的负三元组虽然重要但较为罕见,因此提出直接使用缓存来跟踪这些负三元组。然而,如何从缓存中采样以及如何更新缓存是两个重要的问题。我们精心设计了解决方案,不仅高效而且在探索与利用之间取得了良好的平衡。这样,我们的方法可以视为先前基于GAN的方法的“精炼”版本,不会浪费训练时间在额外参数上以拟合所有负三元组的分布。广泛的实验表明,我们的方法在各种知识图谱嵌入模型中均能显著提升性能,并优于当前最先进的基于GAN的负采样方法。