
摘要
链接开放数据(Linked Open Data)在众多数据挖掘与信息检索任务中已被公认为极具价值的背景信息来源。然而,现有大多数工具要求输入特征以命题形式表示,即与实例相关联的名义型或数值型特征向量,而链接开放数据本质上是图结构。本文提出了一种名为RDF2Vec的方法,该方法借鉴语言建模技术,用于从词序列中无监督地提取特征,并将其适配于RDF图数据。我们通过利用Weisfeiler-Lehman子树RDF图核(Weisfeiler-Lehman Subtree RDF Graph Kernels)以及图遍历(graph walks)所挖掘的图子结构局部信息,生成词序列,并在此基础上学习RDF图中实体的潜在数值表示。我们在三项不同任务上对所提方法进行了评估:(i)标准机器学习任务,(ii)实体与文档建模,以及(iii)基于内容的推荐系统。实验结果表明,所提出的实体嵌入方法优于现有技术,且预先计算好的通用知识图谱(如DBpedia和Wikidata)的特征向量表示可被轻松复用于多种任务中。