
摘要
实体匹配任务的难度取决于多个因素的综合作用,包括异常案例对(corner-case pairs)的数量、测试集中未在训练阶段出现过的实体所占比例,以及开发集(development set)的规模。当前的实体匹配基准通常仅在这些维度中的某一个维度上提供单一评估点,或仅支持在某一维度(例如训练数据量)上对匹配方法进行评估。本文提出了WDC Products这一实体匹配基准,该基准基于真实世界数据,能够系统性地在三个维度的组合下对匹配系统进行评估。这三个维度分别为:(i)异常案例的数量;(ii)对未见实体的泛化能力;(iii)开发集规模(即训练集与验证集之和)。其中,对未见实体的泛化能力是现有英文实体匹配基准尚未涵盖的重要维度,但对于评估实体匹配系统的鲁棒性至关重要。与传统的成对匹配学习方式不同,实体匹配也可被建模为一个多分类任务,要求匹配器能够识别出具体的实体个体。WDC Products是首个同时提供成对匹配(pair-wise)与多分类(multi-class)两种建模范式的基准。本文采用多种前沿匹配系统(包括Ditto、HierGAT和R-SupCon)对WDC Products进行了评估。实验结果表明,所有匹配系统在处理未见实体时均表现出不同程度的困难。此外,实验还表明,在实体匹配任务中,对比学习(contrastive learning)相比交叉编码器(cross-encoders)具有更高的训练数据效率。