摘要
链接预测(Link Prediction)是机器学习领域的一个经典问题,旨在预测图中两个顶点之间是否存在边(链接)。直观上,若从顶点u到顶点v沿现有边路径的距离较远,则二者之间很可能不存在直接链接,反之亦然。这一直觉启发我们,将距离信息显式地与图神经网络(Graph Neural Networks, GNNs)结合,以提升链接预测性能。然而,在训练过程中计算任意两个顶点之间的距离(如最短路径、随机游走的期望步数等)通常耗时较长。为克服这一挑战,我们提出一种基于锚点(anchor-based)的距离度量方法:首先从图中随机选取K个锚点顶点,随后计算图中所有顶点到这K个锚点的最短距离;顶点u与v之间的距离则通过二者到K个锚点距离的平均值进行估计。随后,将该距离信息输入GNN模块进行处理。该方法在仅引入少量额外参数的前提下,显著提升了链接预测的性能。我们在OGB(Hu et al., 2020)基准数据集上的药物-药物相互作用(Drug-Drug Interaction, DDI)和蛋白质-蛋白质关联(Protein-Protein Association, PPA)任务中均取得了当前最优(state-of-the-art)的结果。相关代码已开源,地址为:https://github.com/lbn187/DLGNN。