11日前

Sparkly:エンティティマッチングにおけるシンプルでありながら驚くほど強力なTF/IDFブロッカー

{AnHai Doan, Yash Govind, Derek Paulsen}
要約

エンティティマッチングにおけるブロッキングは重要なタスクである。これまでに多数のブロッキング手法が提案されてきたが、本研究では、広く知られたtf/idf測度を用いたブロッキングについて、ほとんど注目されていないことに気づいた。しかし、Luceneを用いてtf/idfブロッキングを実験した結果、その性能が非常に優れていることが明らかになった。したがって、本論文ではtf/idfブロッキングについて深く検討する。我々は、Sparkクラスタ上で分散共有なし(share-nothing)のアーキテクチャによりtop-k tf/idfブロッキングを実行するためのツール「Sparkly」を開発した。また、効果的な属性およびトークナイザを自動的に特定する技術を構築し、Sparklyが完全に自動化されたシステムとなるようにした。広範な実験を通じて、Sparklyが8つの最先端ブロッカーを上回ることを示した。さらに、再現率(recall)/出力サイズおよび実行時間の観点から、Sparklyの性能を詳細に分析した。得られた知見は以下の通りである:(a)tf/idfブロッキングはより注目されるべきであり、(b)Sparklyは今後のブロッキング研究における強固なベースラインを提供するものであり、(c)今後の研究はtop-kブロッキングの導入を真剣に検討すべきであり、これにより再現率の向上が可能となる。また、分散共有なしアーキテクチャの採用により、スケーラビリティ、予測可能性、拡張性の向上が図れる。

Sparkly:エンティティマッチングにおけるシンプルでありながら驚くほど強力なTF/IDFブロッカー | 最新論文 | HyperAI超神経