Command Palette

Search for a command to run...

4ヶ月前

Sparkly:エンティティマッチングにおけるシンプルでありながら驚くほど強力なTF/IDFブロッカー

{AnHai Doan Yash Govind Derek Paulsen}

要約

エンティティマッチングにおけるブロッキングは重要なタスクである。これまでに多数のブロッキング手法が提案されてきたが、本研究では、広く知られたtf/idf測度を用いたブロッキングについて、ほとんど注目されていないことに気づいた。しかし、Luceneを用いてtf/idfブロッキングを実験した結果、その性能が非常に優れていることが明らかになった。したがって、本論文ではtf/idfブロッキングについて深く検討する。我々は、Sparkクラスタ上で分散共有なし(share-nothing)のアーキテクチャによりtop-k tf/idfブロッキングを実行するためのツール「Sparkly」を開発した。また、効果的な属性およびトークナイザを自動的に特定する技術を構築し、Sparklyが完全に自動化されたシステムとなるようにした。広範な実験を通じて、Sparklyが8つの最先端ブロッカーを上回ることを示した。さらに、再現率(recall)/出力サイズおよび実行時間の観点から、Sparklyの性能を詳細に分析した。得られた知見は以下の通りである:(a)tf/idfブロッキングはより注目されるべきであり、(b)Sparklyは今後のブロッキング研究における強固なベースラインを提供するものであり、(c)今後の研究はtop-kブロッキングの導入を真剣に検討すべきであり、これにより再現率の向上が可能となる。また、分散共有なしアーキテクチャの採用により、スケーラビリティ、予測可能性、拡張性の向上が図れる。

ベンチマーク

ベンチマーク方法論指標
blocking-on-abt-buySparkly k=50
Candidate Set Size: 54500
Recall: 99.2
blocking-on-abt-buySparkly k=10
Candidate Set Size: 10900
Recall: 98.1
blocking-on-amazon-googleSparkly k=50
Candidate Set Size: 165900
Recall: 99.2
blocking-on-amazon-googleSparkly k=10
Candidate Set Size: 33300
Recall: 96.8

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Sparkly:エンティティマッチングにおけるシンプルでありながら驚くほど強力なTF/IDFブロッカー | 論文 | HyperAI超神経