
要約
エンティティリンク(Entity Linking, EL)システムは、テキスト内のエンティティの表記(mention)を知識グラフ(Knowledge Graph, KG)内の対応するエンティティに自動的にマッピングすることを目的としている。KG内におけるエンティティの接続度(接続密度)は、ELシステムがテキスト中の表記をKG内のエンティティに正しくリンクする能力に直接影響を与える。このため、多くのELシステムはKG内で他のエンティティと十分に接続されたエンティティに対して優れた性能を発揮するが、接続が疎なエンティティに対しては性能が低下する傾向にあり、これによりKGの密度がELの性能に果たす役割が注目されるようになった。本論文では、密度化された知識グラフを用いたエンティティリンク(ELDEN: Entity Linking using Densified Knowledge Graphs)を提案する。ELDENは、まず大規模なテキストコーパスからの共起統計を用いてKGを密度化し、その密度化されたKGを基にエンティティ埋め込み(entity embeddings)を学習する。この学習済みエンティティ埋め込みに基づくエンティティ類似度測定により、ELの性能が向上する。実験結果から、ELDENはベンチマークデータセット上で最先端のELシステムを上回る性能を示した。さらに、KG内の接続が疎なエンティティに対しても、密度化の恩恵により良好な性能を発揮する。ELDENのアプローチは単純であるが、実効性が高い。本研究では、ELDENのコードおよび利用可能なデータを公開している。