18 天前

异构属性类型去重(D-HAT)

{George Papadakis, Loujain Liekah}
摘要

去重(Deduplication)是指识别同一现实世界对象的多个表示形式的任务。现有大多数解决方案集中于文本数据,导致在文献中较少涉及包含布尔型和数值型属性的数据集,同时对缺失值问题的处理也较为不足。监督式方法需要充足的标注样本才能应用,然而去重任务的训练数据通常需通过耗时且成本较高的过程获取。在高维数据集中,还需进行特征工程以避免过拟合风险。为应对上述挑战,本文提出D-HAT——一种基于聚类的处理流程,其天然具备处理高维、稀疏及异构属性类型数据的能力。该方法的核心包含两个关键组件:(i)一种新颖的匹配函数,能够有效整合多种匹配信号;(ii)MutMax,一种贪婪式聚类算法,通过识别相互匹配得分最高的数据对来判定为重复项。我们在五个公认的现实世界基准数据集上对D-HAT进行了评估,结果表明,该方法在显著程度上优于当前最先进的监督式与无监督式去重算法。