11日前

SC-Block:エンティティ解決パイプライン内の教師付き対照的ブロッキング

Alexander Brinkmann, Roee Shraga, Christian Bizer
SC-Block:エンティティ解決パイプライン内の教師付き対照的ブロッキング
要約

エンティティ解決(Entity Resolution)の目的は、複数のデータセットに存在する記録のうち、同一の現実世界のエンティティを表すものを特定することである。しかし、複数のデータセット間のすべての記録を比較しようとすると、計算量が膨大となり、処理時間の長大化が生じる。これを緩和するため、エンティティ解決パイプラインは、2つの部分から構成される。第一に、計算コストが低い手法を用いて候補となる記録ペアを絞り込む「ブロッカー(Blocker)」であり、第二に、その候補集合に対してより高コストな手法を用いて一致するペアを特定する「マッチャー(Matcher)」である。本論文では、埋め込み空間(embedding space)における記録の位置付けに教師付き対照学習(supervised contrastive learning)を活用し、近傍探索(nearest neighbour search)を用いて候補集合を構築する新しいブロッキング手法「SC-Block」を提案する。SC-Blockは、8つの最先端ブロッキング手法と比較評価を行った。また、SC-Blockの学習時間とエンティティ解決パイプライン全体の実行時間短縮との関係を明確にするために、SC-Blockを4つのマッチャーと組み合わせ、完全なパイプラインとして評価した。全体の実行時間の測定にあたっては、99.5%のペア完全性(pair completeness)を満たす候補集合を生成し、それをマッチャーに渡す手法を採用した。その結果、SC-Blockはより小さな候補集合を生成でき、他のブロッカーを用いたパイプラインと比較して、F1スコアを損なうことなく1.5~2倍の高速化を達成した。一般的にブロッカーは比較的小規模なデータセット上で評価されるため、語彙サイズの大きさに起因する実行時間の影響が見過ごされがちである。より困難な設定での実行時間を正確に測定するために、本研究では大量の製品オファーをブロッキングする必要がある新しいベンチマークデータセットを導入した。この大規模ベンチマークデータセットにおいて、SC-Blockと最も性能の高いマッチャーを組み合わせたパイプラインは、同じマッチャーを用いる他のブロッカーを用いたパイプラインと比較して、実行時間を8倍短縮した。具体的には、実行時間は2.5時間から18分にまで短縮された。これは、SC-Blockの学習に要する5分間の追加時間をはるかに上回る効果であり、実用的な利点を明確に示している。

SC-Block:エンティティ解決パイプライン内の教師付き対照的ブロッキング | 最新論文 | HyperAI超神経