摘要
随着各类应用中图结构数据的广泛存在,图表示学习已成为一种有效的计算工具,用于获取具有信息量的图向量表示。传统的图核方法通常基于频率统计:图的每个向量维度对应某一特定子结构的出现频次。然而,这类方法在统计预定义子结构的出现次数时面临高昂的计算成本。此外,所学习的向量表示通常极为稀疏,导致无法有效使用内积运算;同时,由于向量取值仅限于整数,其表示空间缺乏平滑性,限制了模型的表达能力。当前最先进的方法虽尝试通过改进核函数来应对上述挑战,但本质上并未生成更优的向量表示。这些方法仅能生成适用于核方法的核矩阵,难以兼容需要显式向量表示的各类模型。因此,如何高效学习适用于不同结构与规模图的平滑向量表示,仍是亟待解决的关键难题。受深度自编码器(deep autoencoders)近期进展的启发,本文探索自编码器在图表示学习中的潜力。与视频或图像不同,图结构通常具有异构尺寸,且难以直接输入至自编码器框架。为此,本文提出一种新型框架——判别性图自编码器(Discriminative Graph Autoencoder, DGA),用于学习图的低维向量表示。该算法将大规模图分解为若干小规模子图,并从中采样结构信息,从而有效捕捉图的拓扑特征。DGA能够在保持图标签所蕴含判别信息的前提下,高效生成平滑且富含信息的图向量表示。为验证所提方法的有效性,本文在多个真实世界数据集和应用场景上进行了广泛实验。实验结果表明,相较于传统方法与当前最先进方法,DGA在效率与性能方面均表现出显著优势,充分证明了其在图表示学习任务中的有效性与通用性。