2 个月前
大规模非同质图上的学习:新基准和强大的简单方法
Derek Lim; Felix Hohne; Xiuyu Li; Sijia Linda Huang; Vaishnavi Gupta; Omkar Bhalerao; Ser-Nam Lim

摘要
许多广泛用于图机器学习任务的数据集通常表现出同质性,即标签相似的节点相互连接。近期,新的图神经网络(G神经网络,GNNs)已经开发出来,突破了同质性的限制;然而,这些模型的评估往往是在规模较小且应用领域有限的图上进行的。我们收集并引入了来自不同应用领域的多样化非同质性数据集,这些数据集的节点数量最多比先前的数据集多384倍,边的数量最多多1398倍。我们进一步表明,现有的可扩展图学习和图小批量训练技术在这些非同质性数据集上会导致性能下降,从而突显了对可扩展非同质性方法进一步研究的需求。为了解决这些问题,我们提出了LINKX——一种强大的简单方法,支持直接的小批量训练和推理。通过在我们提出的多个数据集上与代表性简单方法和GNNs进行广泛的实验对比,结果表明LINKX在非同质性图上的学习性能达到了当前最佳水平。我们的代码和数据可在https://github.com/CUAI/Non-Homophily-Large-Scale 获取。