18 天前

基于深度学习的实体匹配:设计空间探索

{Vijay Raghavendra, Esteban Arcaute, Rohit Deep, Ganesh Krishnan, Youngchoon Park, AnHai Doan, Theodoros Rekatsinas, Han Li, Sidharth Mudgal}
基于深度学习的实体匹配:设计空间探索
摘要

实体匹配(Entity Matching, EM)旨在识别指向同一现实世界实体的数据实例。本文探讨了深度学习(Deep Learning, DL)在EM任务中的应用,以深入理解其优势与局限性。我们回顾了文本处理领域中与匹配任务相关的多种深度学习解决方案,例如实体链接(entity linking)、文本蕴含(textual entailment)等。基于这些方法,我们对现有技术进行分类,并构建了一个适用于EM任务的深度学习解决方案空间,该空间包含四种具有不同表征能力的模型:SIF、RNN、Attention以及混合模型(Hybrid)。随后,我们系统分析了深度学习在哪些类型的EM问题中具有实际价值。具体而言,我们考察了三类典型问题:结构化数据实例的匹配、文本实例的匹配,以及脏数据(dirty data)实例的匹配。我们通过实验将上述四种深度学习模型与Magellan——一种先进的基于学习的EM方法——进行了对比评估。实验结果表明,深度学习在结构化实体匹配任务中并未超越现有先进方法,但在文本实体匹配和脏数据实体匹配任务中,其性能显著优于传统方法。对实践者而言,这一发现提示:在处理文本型实体匹配或脏数据匹配问题时,应认真考虑采用深度学习技术。最后,本文对深度学习在实体匹配中的表现进行了深入分析,并探讨了未来可能的研究方向。