
摘要
网络上的关系型HTML表格包含了描述多种实体且涵盖广泛主题的数据。因此,这些网页表格对于填补跨领域知识库(如DBpedia、YAGO或Google知识图谱)中的缺失值具有重要价值。然而,在将网页表格数据用于填补缺失值之前,必须先将表格与目标知识库进行匹配。这一匹配过程涉及三个关键任务:表格到类别的匹配、行到实例的匹配以及属性到属性的匹配。针对每一项任务,已有多种匹配方法被提出。遗憾的是,现有方法通常基于不同的网页表格语料库进行评估,且每种方法仅利用了网页表格与知识库中潜在有助于匹配的特征子集。这两个局限性使得不同匹配方法之间的比较变得困难,也难以准确评估各项特征对整体匹配效果的影响。本文通过在一个统一的匹配框架内重新实现文献中提出的多种匹配技术及相似度得分融合方法,致力于增进对不同特征在网页表格到知识库匹配中作用的理解。在此框架下,我们系统地评估了多种技术组合在单一权威标准(gold standard)上的表现。该权威标准由DBpedia知识库与Web Data Commons网页表格语料库中的网页表格之间的类别、实例及属性对应关系构成,为匹配性能的客观评估提供了可靠基准。