摘要
知识图谱嵌入(Knowledge Graph Embedding, KGE)模型通过密集的连续向量表示(即嵌入)来刻画知识图谱(Knowledge Graph, KG)中的实体与关系。近年来,KGE方法在知识图谱补全、推理任务中展现出强大潜力,并被广泛用于为下游学习任务提供高质量的实体表示。尽管现有文献中多数研究集中于小型知识图谱,但近期已有若干框架被提出,通过在多张GPU或多台机器上进行并行化训练,实现了大规模知识图谱上KGE模型的有效训练。然而,目前尚缺乏对各类并行化技术优劣的系统性评估。本文报告了一项实验研究,我们在统一的计算框架下重新实现、系统分析并改进了现有的并行化方法。研究发现,以往工作中所采用的评估方法往往缺乏可比性,甚至可能产生误导;同时,当前大多数实现的训练方法实际上对嵌入质量具有负面影响。为此,我们提出了一种简单但有效的改进策略,借鉴PyTorch BigGraph中采用的分层划分(stratification)技术,以缓解此类问题。此外,结合适当的采样策略,基础的随机划分(random partitioning)方法在某些情况下不仅有效,甚至可能成为表现最佳的选择。最终,我们证实:在精心选择技术组合的前提下,大规模KGE模型的高效且有效的并行训练是完全可行的。