Entitätsauflösung mit hierarchischen Graphen-Attention-Netzwerken
Entitätsauflösung (Entity Resolution, ER) verknüpft Entitäten, die sich auf dieselbe reale Weltentität aus verschiedenen Quellen beziehen. Bisherige Ansätze nehmen typischerweise Paare von Entitäten als Eingabe und bewerten diese Paare unabhängig voneinander. In der Praxis besteht jedoch oft eine Wechselwirkung zwischen verschiedenen ER-Entscheidungen, beispielsweise sind Entitäten aus derselben Datenquelle häufig semantisch miteinander verwandt. Zudem basieren aktuelle ER-Verfahren hauptsächlich auf der Vergleichbarkeit von Attributen, ignorieren jedoch die Wechselwirkungen zwischen diesen Attributen. Um die Grenzen bestehender Methoden zu überwinden, schlagen wir HierGAT vor – eine neue Methode für die Entitätsauflösung, die auf einem Hierarchischen Graphen-Attention-Transformer-Netzwerk basiert und die Wechselwirkungen zwischen unterschiedlichen ER-Entscheidungen modellieren und ausnutzen kann. Der Vorteil unseres Ansatzes ergibt sich aus zwei zentralen Aspekten: 1) dem Graphen-Attention-Netzwerk zur gemeinsamen Entscheidungsfindung bei der ER; 2) der Fähigkeit des Graphen-Attention-Modells, diskriminative Wörter aus Attributen zu identifizieren und die jeweils diskriminativsten Attribute zu finden. Darüber hinaus schlagen wir vor, kontextuelle Embeddings zu lernen, um die Wort-Embeddings zu bereichern und die Leistungsfähigkeit zu steigern. Die experimentellen Ergebnisse auf öffentlich verfügbaren Benchmark-Datensätzen zeigen, dass HierGAT DeepMatcher bis zu 32,5 % hinsichtlich des F1-Scores übertrifft und gegenüber Ditto bis zu 8,7 % höhere F1-Scores erreicht.