
意味ネットワーク、例えば知識グラフ(Knowledge Graph)は、グラフ構造を活用して知識を表現することができる。知識グラフは自然言語処理分野において有望な価値を示しているものの、不完全性という課題に直面している。本研究では、エンティティ間のリンク予測を通じた知識グラフの補完に焦点を当て、これは基本的かつ重要なタスクである。意味的マッチングは、未観測のエンティティに対応できる点で有望なアプローチであり、従来の移動距離に基づく手法が苦手とする状況にも対応可能である。しかし、移動距離ベースの手法と同等の性能を達成するためには、意味的マッチングベースの手法は大規模な訓練データセットを必要とするが、実用的な環境ではそのようなデータが通常入手困難である。したがって、本研究では言語モデルを活用し、新たな知識グラフアーキテクチャであるLP-BERTを提案する。このアーキテクチャは、二段階のプロセスから構成される:マルチタスク事前学習と知識グラフのファインチューニング。事前学習段階では、三つのタスクを設定し、三項組(triples)から関係性を学習するため、エンティティまたは関係の予測を実施する。一方、ファインチューニング段階では、対比学習(contrastive learning)のアイデアを基に、バッチ内での三項組形式のネガティブサンプリングを設計した。これにより、ネガティブサンプルの比率を大幅に向上させつつ、訓練時間はほぼ変化させないという利点を得た。さらに、三項組の逆関係(inverse relation)を活用した新しいデータ拡張手法を提案し、モデルの性能およびロバスト性を向上させた。本手法の有効性を検証するため、広く用いられる三つのデータセット(WN18RR、FB15k-237、UMLS)上で広範な実験を実施した。実験結果から、本手法の優位性が明確に示され、特にWN18RRおよびFB15k-237データセットにおいて、最先端の性能を達成した。特に、WN18RRデータセットでは、従来の最先端手法比でHits@10指標が5%向上し、UMLSデータセットでは100%の達成を記録した。