13日前

SimKGC:事前学習済み言語モデルを用いたシンプルな対照的知識グラフ補完

Liang Wang, Wei Zhao, Zhuoyu Wei, Jingming Liu
SimKGC:事前学習済み言語モデルを用いたシンプルな対照的知識グラフ補完
要約

知識グラフ補完(Knowledge Graph Completion; KGC)は、既存の事実をもとに推論を行い、欠落しているリンクを推定することを目的としている。テキストベースの手法であるKGBERT(Yaoら、2019)は自然言語によるエンティティ記述からエンティティ表現を学習し、誘導的KGC(inductive KGC)の可能性を有している。しかし、現状ではテキストベースの手法の性能は、TransE(Bordesら、2013)やRotatE(Sunら、2019b)といったグラフ埋め込みベースの手法に比べて依然として大きく劣っている。本論文では、その主な要因が効率的な対照学習(contrastive learning)の不足にあると指摘する。学習効率の向上を目指し、本研究では3種類のネガティブ例を導入する:バッチ内ネガティブ例(in-batch negatives)、前バッチネガティブ例(pre-batch negatives)、および自己ネガティブ例(self-negatives)——これらはハードネガティブ例の簡易な形として機能する。これらの要素をInfoNCE損失関数と組み合わせることで、提案するモデルSimKGCは、複数のベンチマークデータセットにおいて埋め込みベースの手法を著しく上回る性能を達成した。平均逆順位(Mean Reciprocal Rank; MRR)において、WN18RRでは+19%、Wikidata5Mの誘導的設定では+6.8%、同データセットの誘導的設定では+22%の性能向上を実現した。各構成要素の役割を深く分析することで、モデルの動作メカニズムに関する洞察を得た。本研究のコードは、https://github.com/intfloat/SimKGC にて公開されている。