
摘要
我们提出了一种基于预训练Transformer语言模型的新型实体匹配系统——Ditto。通过微调并将其建模为序列对分类任务,Ditto以简洁的架构充分利用了此类语言模型的强大能力。实验结果表明,仅采用在大规模文本语料上预训练的语言模型(如BERT、DistilBERT或RoBERTa)进行直接应用,即可显著提升匹配性能,在基准数据集上的F1分数相较以往最先进(SOTA)方法最高提升达29%。此外,我们还设计了三种优化技术,进一步增强Ditto的匹配能力。首先,Ditto支持通过高亮输入中关键信息的方式注入领域知识,帮助模型在匹配决策时聚焦于更具意义的特征。其次,针对过长字符串,Ditto会自动进行摘要处理,仅保留核心信息用于匹配,从而提升效率与准确性。最后,Ditto引入了一种先进的文本数据增强技术,将其适配应用于实体匹配任务,通过合成更具挑战性的训练样本,使模型在更具难度的数据上进行学习,从而显著提升泛化能力。这些优化措施使Ditto的性能进一步提升,最高可达9.8%。更为令人意外的是,我们发现Ditto仅需以往SOTA方法一半甚至更少的标注数据,即可达到相同的先进性能水平。最后,我们在一个真实世界的大规模实体匹配任务中验证了Ditto的有效性:在匹配包含78.9万和41.2万条记录的两个公司数据集时,Ditto取得了高达96.5%的F1分数,充分展现了其在实际场景中的卓越表现。