要約
エンティティ解決(Entity Resolution, ER)は、異なるデータソースから同一の現実世界のエンティティを指すエンティティを結びつけるタスクである。従来の手法は通常、エンティティのペアを入力として、それらのペアを独立して判断する。しかし、ERの判断ペア間にはしばしば相互依存関係が存在する。例えば、同一のデータソースから得られたエンティティは、通常、意味的に関連している。さらに、現在のERアプローチは主に属性間の類似度比較に基づいているが、属性間の相互依存関係を無視している。こうした既存手法の限界を克服するため、本研究では、階層的グラフ自己注意変換ネットワーク(Hierarchical Graph Attention Transformer Network)を基盤とする新しいER手法、HierGATを提案する。この手法は、異なるER判断間の相互依存関係をモデル化・活用できる点で特徴的である。本手法の利点は以下の2点に集約される:1)複数のER判断を統合的に処理するためのグラフ自己注意ネットワークの導入;2)属性から特徴的な語を識別し、最も判別力の高い属性を特定するためのグラフ自己注意機構の活用。さらに、文脈情報を捉えた埋め込み(contextual embeddings)を学習することで、単語埋め込みを豊かにし、性能向上を図っている。公開されているベンチマークデータセットを用いた実験結果から、HierGATはDeepMatcherに対して最大32.5%のF1スコア向上を達成し、Dittoと比較しても最大8.7%のF1スコア向上を示した。