
摘要
现代图嵌入方法能够高效地从包含数百万个节点的图中提取节点特征,这些特征随后被用作下游预测任务的输入。本文提出了一种名为GEMSEC的图嵌入算法,该算法在计算节点特征的同时,能够同步学习节点的聚类结构。该方法将节点映射至一个抽象的特征空间,在该空间中,节点特征通过最小化保留采样邻域的负对数似然来优化,同时节点在该空间中被聚类为固定数量的组。GEMSEC是对该领域早期工作的通用扩展,其本质上是对基于序列的图嵌入方法核心优化问题的增强,并且与邻域采样策略无关。实验结果表明,GEMSEC在真实世界社交网络上能够提取高质量的聚类结果,其性能可与现有的社区发现算法相媲美。我们进一步证明,聚类约束对表示质量具有积极影响,且所提出的算法能够以稳健且可扩展的方式,联合学习图的嵌入与聚类结构。