
摘要
实体匹配是指判断两个实体描述是否指代同一个现实世界中的实体。实体匹配是大多数数据集成流程中的核心步骤。许多最先进的实体匹配方法依赖于预训练语言模型(PLMs),如BERT或RoBERTa。这些模型在实体匹配任务中存在两个主要缺点:(i) 需要大量的任务特定训练数据;(ii) 细调后的模型对分布外实体不够鲁棒。本文研究了使用生成式大语言模型(LLMs)作为预训练语言模型匹配器的一种依赖较少任务特定训练数据且更加鲁棒的替代方案。研究涵盖了托管和开源的大语言模型,这些模型可以在本地运行。我们在零样本场景和有任务特定训练数据可用的场景下评估了这些模型,并比较了不同的提示设计及模型对提示的敏感性。我们发现没有单一的最佳提示,而是需要针对每个模型/数据集组合进行调整。此外,我们还探讨了(i) 上下文示例的选择,(ii) 匹配规则的生成,以及(iii) 使用相同的训练数据池对大语言模型进行细调。实验结果表明,最佳的大语言模型在无需或仅需少量训练样例的情况下即可达到与使用数千个样例细调的预训练语言模型相当的性能。基于大语言模型的匹配器还表现出对未见过实体更高的鲁棒性。我们展示了GPT-4可以生成结构化的匹配决策解释,并通过分析错误决策的解释自动识别潜在的匹配错误原因。我们进一步证明,该模型可以生成有意义的文字描述来说明识别出的错误类别,这有助于数据工程师改进实体匹配流程。