摘要
实体解析(Entity Resolution, ER)旨在将来自不同数据源中指向同一现实世界实体的实体进行关联。现有方法通常以实体对作为输入,并独立判断每一对实体是否指向同一实体。然而,不同实体对之间的解析决策往往存在相互依赖关系,例如,来自同一数据源的实体通常在语义上彼此相关。此外,当前的ER方法主要依赖于属性间的相似性比较,却忽视了属性之间的内在关联性。为克服现有方法的局限性,本文提出一种基于分层图注意力变换网络(Hierarchical Graph Attention Transformer Network)的新方法——HierGAT,该方法能够建模并利用不同ER决策之间的相互依赖关系。所提方法的优势体现在以下两个方面:(1)采用图注意力网络实现联合实体解析决策,捕捉全局上下文依赖;(2)利用图注意力机制识别属性中的关键区分性词汇,并筛选出最具区分能力的属性。此外,本文还提出通过学习上下文嵌入(contextual embeddings)来增强词嵌入表示,从而提升模型性能。在公开可用的基准数据集上的实验结果表明,HierGAT在F1分数上相较于DeepMatcher最高提升达32.5%,相较于Ditto最高提升达8.7%。