
摘要
基于子图的图表示学习(Subgraph-based Graph Representation Learning, SGRL)近年来在各类图上预测任务中展现出强大能力,主要得益于其在模型表达能力和泛化性能方面的优势。然而,大多数现有的SGRL模型在训练或测试过程中面临高昂的子图提取计算开销,成为制约其效率的关键瓶颈。近期提出的SUREL方法通过离线采样随机游走路径,并在在线阶段将这些路径拼接作为子图的代理进行表示学习,有效提升了SGRL的可扩展性与预测精度。得益于采样路径在不同查询间的可复用性,SUREL实现了当前最优的性能表现。然而,SUREL仍受限于采样路径中节点重复带来的高计算开销。针对这一问题,本文提出一种新型框架SUREL+,通过对SUREL进行升级,采用节点集合(node sets)而非路径(walks)来表示子图。该集合式表示方式从定义上消除了节点重复问题,但同时也带来了集合大小不规则的挑战。为解决此问题,我们设计了一种定制化的稀疏数据结构,以高效存储与访问节点集合,并开发了一种专用算子,支持在并行批次中对集合进行快速拼接。SUREL+采用模块化设计,支持多种类型的集合采样器、结构特征以及神经编码器,从而在将路径压缩为集合导致结构信息损失的情况下,有效弥补结构性信息的缺失。通过在链接预测、关系类型识别以及高阶模式预测等多项任务上的大量实验验证,SUREL+在保持与现有方法相当甚至更优的预测性能的同时,相较原始SUREL实现了3至11倍的加速;与其它SGRL基线方法相比,SUREL+实现了约20倍的加速,并显著提升了预测准确率。