摘要
实体匹配(Entity Matching, EM)旨在识别指代同一现实世界实体的数据实例。目前大多数EM解决方案采用“阻断(blocking)+匹配(matching)”的两阶段流程。尽管已有大量研究将深度学习(Deep Learning, DL)应用于匹配阶段,但将其应用于阻断阶段的工作仍相对较少。现有阻断方法在深度学习应用上存在局限:多数仅采用较为简单的深度学习形式,且部分方法依赖于标注的训练数据。本文提出DeepBlocker框架,显著推进了深度学习在实体匹配阻断阶段的应用水平。首先,我们定义了一个涵盖多种复杂度的深度学习阻断解决方案空间,该空间包含并整合了此前大多数相关工作。随后,我们在该空间中设计了八种具有代表性的解决方案。这些方法无需依赖标注训练数据,同时充分利用了深度学习领域的最新进展,如序列建模、Transformer架构以及自监督学习等技术。通过大量实验,我们系统评估了不同方案在不同类型数据集(结构化数据、文本数据及脏数据)上的表现,确定了各类方案的最佳适用场景。实验结果表明,在脏数据和文本数据上,所提出的最优方案显著优于当前最先进的深度学习阻断方法,以及现有最先进的非深度学习方法(包括一项工业级的先进非DL方案);而在结构化数据上,其性能也达到了相当水平,具有可比性。最后,我们进一步验证了最优深度学习方案与最优非深度学习方案相结合的协同效应,发现二者融合后性能进一步提升,这为未来实体匹配研究开辟了新的方向。