11 天前
NodePiece:大规模知识图谱的组合式与参数高效表示
Mikhail Galkin, Etienne Denis, Jiapeng Wu, William L. Hamilton

摘要
传统的知识图谱(Knowledge Graph, KG)表示学习算法将每个实体映射为一个唯一的嵌入向量。这种浅层查表机制导致存储嵌入矩阵所需的内存随实体数量线性增长,并在处理现实世界知识图谱时带来高昂的计算开销。受自然语言处理中常用的子词分词(subword tokenization)的启发,我们探索了更具参数效率的节点嵌入策略,其内存需求可能低于线性增长。为此,我们提出 NodePiece——一种基于锚点(anchor-based)的实体嵌入方法,用于学习固定大小的实体词汇表。在 NodePiece 中,通过图中具有已知关系类型的锚点节点,构建由子词/子实体单元组成的词汇表。基于这一固定大小的词汇表,可为任意实体(包括训练阶段未见的实体)实现编码与嵌入的初始化。实验结果表明,NodePiece 在节点分类、链接预测和关系预测任务中表现优异,同时仅需保留图中不足10%的显式节点作为锚点,参数量通常减少至原来的十分之一。进一步实验显示,基于 NodePiece 的模型在大型 OGB WikiKG2 图上,以仅为其现有浅层模型约1/70的参数量,实现了更优的性能表现。