
摘要
我们介绍了DeepWalk,这是一种用于学习网络中节点潜在表示的新方法。这些潜在表示在连续向量空间中编码了社会关系,便于统计模型利用。DeepWalk将最近在语言建模和无监督特征学习(或深度学习)方面的进展从词序列推广到图结构。DeepWalk通过将随机游走视为句子的等价物,利用截断随机游走获得的局部信息来学习潜在表示。我们在多个多标签网络分类任务上展示了DeepWalk的潜在表示,这些任务涉及如BlogCatalog、Flickr和YouTube等社交网络。实验结果表明,即使在网络信息缺失的情况下,DeepWalk的表现也优于那些可以全局视角观察网络的基准方法。当标记数据稀疏时,DeepWalk的表示可以比竞争方法提供高达10%更高的$F_1$分数。在某些实验中,DeepWalk的表示能够在使用60%较少训练数据的情况下超越所有基准方法。此外,DeepWalk具有可扩展性。它是一种在线学习算法,能够构建有用的增量结果,并且易于并行化。这些特性使其适用于广泛的真实世界应用,例如网络分类和异常检测。