摘要
实体消歧用于识别语义上等价的实体,例如描述同一产品或同一客户的信息。在大数据应用中,该任务尤为具有挑战性,因为需要匹配并整合来自多个数据源的海量数据。为此,我们提出了一种可扩展的实体消歧框架——FAMER(Fast Multi-source Entity Resolution system),该框架基于 Apache Flink 实现分布式执行,能够全面地对来自多个数据源的实体进行匹配。为实现这一目标,FAMER 集成了多种聚类算法,将来自不同数据源的匹配实体归入同一聚类簇中。除了已知的聚类方法外,FAMER 还引入了针对多源实体消歧任务专门设计的新颖聚类策略。我们对八种不同的聚类算法在真实世界数据集及合成生成数据集上进行了详尽的对比评估,评估内容涵盖匹配质量以及在不同机器数量和数据规模下的可扩展性表现。