摘要
实体匹配中的阻断(blocking)是一项关键任务。尽管已有大量阻断方案被提出,但据我们所知,基于广为人知的TF-IDF度量的阻断方法几乎未受到关注。然而,在使用Lucene对TF-IDF阻断进行实验时,我们发现其表现相当出色。因此,本文对TF-IDF阻断进行了深入研究。我们提出了Sparkly,该系统利用Lucene在Spark集群上以分布式“无共享”(share-nothing)的方式实现top-k TF-IDF阻断。我们还开发了若干技术,用于自动识别适用于阻断的优质属性和分词器,从而使Sparkly完全自动化。通过大量实验,我们证明Sparkly在性能上显著优于8种当前最先进的阻断器。最后,我们对Sparkly的性能进行了深入分析,涵盖召回率/输出规模以及运行时间两个方面。研究结果表明:(a)TF-IDF阻断应获得更多关注;(b)Sparkly可作为未来阻断研究的强有力基线,所有相关工作都应与之对比;(c)未来阻断研究应认真考虑top-k阻断策略,该策略有助于提升召回率;同时应采用分布式无共享架构,以增强系统的可扩展性、可预测性和可扩展性。