17 天前

用于实体匹配的BERT双目标微调

{Christian Bizer, Ralph Peeters}
用于实体匹配的BERT双目标微调
摘要

越来越多的数据提供方已采用共享编号体系(如GTIN、ISBN、DUNS或ORCID)来标识其所属领域的实体。这意味着在进行数据集成时,通常只有部分待集成的实体描述包含共享标识符,而其他实体描述则缺乏此类标识。在此类场景下,核心挑战在于:如何利用包含标识符的实体描述作为训练数据,学习一个无需标识符即可匹配实体描述的模型。该任务可通过构建一个二分类器来实现,该分类器能够区分属于同一现实世界实体的实体描述对与属于不同实体的描述对。此外,该任务也可建模为多分类问题,即训练分类器以识别单个实体的描述。本文提出一种针对BERT的双目标训练方法,称为JointBERT,该方法结合了二分类匹配任务与多分类任务,强制模型在判断描述对是否匹配的同时,还需预测训练样本中每个实体描述对应的实体标识符。在五个实体匹配基准数据集上的评估结果表明,当两类目标均具备充足的训练数据时,与单一目标的基于Transformer的方法相比,双目标训练可使已见产品(seen products)的匹配性能提升1%至5%的F1值。为深入理解所提方法的优势与局限,我们针对一系列特定的匹配挑战,将JointBERT与多种基于BERT的匹配方法及基线系统进行了对比分析。结果表明,在两类目标均有足够训练数据的前提下,JointBERT在涉及已见产品的任务中优于其他方法,但在处理未见产品(unseen products)时表现较差。通过结合LIME解释方法与领域特定词类(domain-specific word classes)对不同深度学习模型的匹配决策进行分析,我们发现基于BERT的模型相较于基于RNN的模型,能够更有效地聚焦于与任务相关的词类,从而提升匹配的准确性与可解释性。