多言語知識グラフ補完における関係およびエンティティの同時アライメント

知識グラフ補完(Knowledge Graph Completion, KGC)は、不完全な知識グラフにおける欠落した事実を予測するタスクである。現在の大多数のKGC研究は、単一の知識グラフおよび単一言語に限定されており、多言語環境への適用が困難である。しかし、異なる言語を話す人々はそれぞれの言語に合わせた独立した知識グラフを維持しており、個々の知識グラフが完全であるとは期待されない。さらに、これらの知識グラフに共通するエンティティや関係は、異なる表記形やIDを有しており、IDの膨張が生じる。この問題を解決するため、エンティティアライメント(Entity Alignment, EA)および関係アライメント(Relation Alignment, RA)のタスクが導入されている。これらは、異なる知識グラフにおける同一のエンティティ(関係)を表すエンティティ(関係)IDのペアを認識することを目的としている。このアライメントは、一つの知識グラフから得られる知識が他の知識グラフの補完に寄与する可能性があるため、欠落事実の予測を支援する。また、高い信頼度で予測された事実も、アライメントタスクにとって貴重な情報を提供する可能性がある。こうした背景から、本研究では、多言語KGC、関係アライメント、エンティティアライメントの3つのモデルを共同で学習する新しいタスクを提案する。我々は、一部の初期アライメントを用いて、KGC、EA、RAの損失関数を同時に最適化するモデルであるALIGNKGCを提案する。ALIGNKGCの重要な構成要素として、関係の(主語, 客語)セットのシグネチャに基づいて定義された、埋め込みに基づく非対称な重なり(asymmetric overlap)のソフトな定式化を導入している。この仕組みにより、他の関係と等価であるか、またはその包含関係にある関係の予測精度が向上する。5言語のDBpediaを用いた広範な実験により、すべてのタスクにおいて共同学習の有効性が実証され、各単言語知識グラフにおいて、最先端の単一KGCシステムと比較して、MRR(Mean Reciprocal Rank)で10~32ポイントの向上を達成した。さらに、アライメントを行わずにすべての事実を統合した知識グラフ上で単純な補完モデルを適用した場合と比較して、ALIGNKGCはEAおよびRAタスクにおいても有意な性能向上を示しており、これらのタスクにおいて共同学習の価値が裏付けられた。