摘要
实体解析(Entity Resolution, ER)是数据集成中的核心问题。当前最先进的实体解析方法均基于深度学习(Deep Learning, DL),其性能依赖于大量已标注的匹配/非匹配实体对进行训练。在使用精心准备的基准数据集时,这一要求通常并非难题。然而,在许多真实世界的实体解析应用场景中,获取大规模标注数据集却成为一项极为困难且耗时的任务。本文旨在探讨一个关键问题:若我们已拥有一个标注良好的源域实体解析数据集,是否能够在目标数据集上训练出一个深度学习驱动的实体解析模型,而无需任何标签或仅依赖极少量标签?这一问题即为领域自适应(Domain Adaptation, DA),尽管其在计算机视觉和自然语言处理领域已取得显著成功,但在实体解析任务中尚未得到系统性研究。本文的目标是系统性地探索各类领域自适应方法在实体解析中的优势与局限性。为此,我们提出了一种名为 DADER(Domain Adaptation for Deep Entity Resolution)的框架,显著推动了深度学习在实体解析中应用领域自适应的研究进展。DADER 框架由三个核心模块构成:特征提取器(Feature Extractor)、匹配器(Matcher)和特征对齐器(Feature Aligner),我们为这三个模块构建了一个完整的设计空间。在此基础上,我们开展了迄今为止最为全面的实验研究,系统探索该设计空间,并对比分析不同领域自适应策略在实体解析任务中的表现。基于大量实验结果,本文为如何根据具体场景选择合适的设计方案提供了切实可行的指导建议。