6 个月前

摘要

图嵌入领域目前主要由对比学习方法主导，这类方法需要显式定义目标函数，并进行正负样本的采样，由此带来较高的概念设计与计算开销。相比之下，一些简单而经典的无监督方法，如多维缩放（Multidimensional Scaling, MDS）或拉普拉斯特征映射（Laplacian eigenmap），无需繁琐的目标函数优化，能够直接利用数据的几何结构。然而，这些方法依赖于代价高昂的矩阵特征分解等操作，难以扩展到当今数字世界中常见的大规模图数据。本文提出 Cleora：一种兼具无监督特性与高度可扩展性的图嵌入算法。我们证明，高质量的嵌入表示无需依赖流行的分步学习框架及样本采样机制即可生成。Cleora 的直观学习目标是：节点应与其邻居保持相似性，而无需显式地将不相连的节点相互推开。该目标通过迭代地对节点邻居嵌入进行加权平均，并在各维度上进行归一化来实现。得益于加权平均操作，算法能够在嵌入空间中快速推进，通常仅需数次迭代即可收敛至较优解。实验表明，Cleora 在 CPU 上的运行速度优于其他最先进的图嵌入算法，且在下游任务（如链接预测与节点分类）上的表现具有竞争力。我们进一步发现，Cleora 学习到的数据抽象与对比学习方法具有相似性，但其计算成本显著更低。Cleora 已以 MIT 许可证开源，支持商业使用，项目地址为：https://github.com/Synerise/cleora。

源 PDF