2ヶ月前
KEPLER: 知識埋め込みと事前学習言語表現の統一モデル
Xiaozhi Wang; Tianyu Gao; Zhaocheng Zhu; Zhengyan Zhang; Zhiyuan Liu; Juanzi Li; Jian Tang

要約
事前学習言語表現モデル(PLMs)は、テキストから実際の知識を十分に捉えることができません。一方、知識埋め込み(KE)手法は、情報豊富なエンティティ埋め込みを使用して、知識グラフ(KGs)内の関係的な事実を効果的に表現できますが、従来のKEモデルは豊富なテキスト情報を十分に活用することができません。本論文では、Knowledge Embedding and Pre-trained LanguagE Representation (KEPLER)と呼ばれる統合モデルを提案します。このモデルは、実際の知識をPLMsによりよく統合するだけでなく、強力なPLMsによってテキスト強化型KEを生成することができます。KEPLERでは、テキストのエンティティ説明をPLMでエンコードし、その埋め込みとして使用し、その後KEと言語モデリングの目的関数を共同で最適化します。実験結果は、KEPLERが様々なNLPタスクにおいて最先端の性能を達成しており、またKGリンク予測における帰納的KEモデルとしても非常に優れた性能を示していることを示しています。さらに、KEPLERの事前学習と評価のために、アライメントされたエンティティ説明を持つ大規模なKGデータセットであるWikidata5Mを構築し、これを使って最先端のKE手法のベンチマークを行いました。Wikidata5Mは新しいKEベンチマークとして機能し、大規模KG、帰納的KEおよびテキスト付きKGに関する研究を促進することが期待されます。ソースコードはhttps://github.com/THU-KEG/KEPLERから入手可能です。