要約
知識グラフ埋め込み(Knowledge Graph Embedding: KGE)モデルは、知識グラフ(KG)のエンティティおよび関係を、密度型の連続表現である「埋め込み(embeddings)」として表現する手法である。近年、KGE手法は知識グラフ補完や推論といったタスク、および下流の学習タスクにおける適切なエンティティ表現の提供という観点から注目を集めている。これまでの研究の多くは小規模なKGに焦点を当ててきたが、複数のGPUやマシンを用いた並列化によって大規模KGに対するKGEモデルの学習を可能にするフレームワークが、最近数多く提案されている。しかしながら、これらの並列化手法の利点と欠点について、包括的な検証は行われていない。本論文では、既存の手法を共通の計算フレームワーク上で再実装し、検証および改善を試みる実験的研究を報告する。その結果、先行研究で用いられた評価手法はしばしば比較不能であり、誤解を招く可能性があることが明らかになった。また、現在実装されている大多数の学習手法は、埋め込みの品質に悪影響を及ぼす傾向にあることが判明した。そこで、PyTorch BigGraphで用いられる階層化(stratification)手法の単純ながら効果的な変種を提案する。さらに、適切なサンプリング手法と組み合わせることで、基本的なランダム分割(random partitioning)が効果的、あるいは最良の性能を示す場合があることが示された。結論として、大規模KGEモデルの効率的かつ有効な並列学習は実現可能であるが、そのために適切な技術選定が不可欠であることが明らかになった。