6 个月前

摘要

实体匹配是数据集成中的核心任务，已有数十年的研究历史。在此期间，研究者们开发了大量用于评估实体匹配方法的基准任务。本文系统性地补充、分析并比较了21个实体匹配基准任务。为更深入理解各类任务所面临的具体挑战，我们定义了一组描述性维度，用以捕捉匹配任务的核心特征。基于这些维度，我们将基准任务划分为若干具有相似特性的组别。随后，通过采用标准特征工程结合两种常见的分类方法，计算各组任务的基线评估结果，以评估其难度。为确保评估结果的精确可复现性，基准任务必须包含明确定义的匹配与非匹配记录对集合，以及固定的开发集与测试集划分。然而，部分广泛使用的基准任务并未满足这一要求。为此，我们为这些任务补充了固定的非匹配对集合及固定的数据划分，并公开提供经处理后的开发集与测试集，供研究者下载使用。通过对基准任务的系统性描述与补充，本文旨在帮助研究人员选择具有挑战性且多样化的任务，并在清晰、明确的基础上对实体匹配系统进行公平比较。

源 PDF 查看代码