CorDEL: Ein kontrastiver Deep Learning-Ansatz für die Entitätenverknüpfung

Entity Linkage (EL) stellt eine zentrale Herausforderung im Bereich der Datenbereinigung und -integration dar. In den vergangenen Jahrzehnten wurde EL typischerweise mittels regelbasierten Systemen oder traditionellen maschinellen Lernmodellen mit handkuratierten Merkmalen durchgeführt, wobei beide Ansätze stark von manueller menschlicher Eingabe abhängen. Angesichts des stetig wachsenden Datenvolumens wurden in letzter Zeit Ansätze auf Basis tiefer neuronalen Netze (Deep Learning, DL) vorgeschlagen, um die hohen Kosten der EL, die mit traditionellen Modellen verbunden sind, zu verringern. Die bisherige Forschung zu DL-Modellen für EL folgt streng der bekannten Twin-Network-Architektur. Wir argumentieren jedoch, dass diese Twin-Network-Architektur für EL suboptimal ist und zu inhärenten Nachteilen bestehender Modelle führt. Um diese Nachteile zu beheben, schlagen wir einen neuartigen und allgemeinen kontrastiven DL-Framework für EL vor. Das vorgeschlagene Framework ist in der Lage, sowohl syntaktische als auch semantische Übereinstimmungssignale zu erfassen und dabei feine, jedoch entscheidende Unterschiede zu berücksichtigen. Auf Basis dieses Frameworks entwickeln wir eine kontrastive DL-Methode für EL, namens CorDEL, mit drei leistungsstarken Varianten. Wir evaluieren CorDEL anhand umfangreicher Experimente auf öffentlichen Benchmark-Datensätzen sowie auf einem realen Datensatz. CorDEL übertrifft die bisherigen State-of-the-Art-Modelle auf öffentlichen Benchmark-Datensätzen um 5,2 Prozent. Zudem erzielt CorDEL gegenüber dem derzeit besten DL-Modell auf dem realen Datensatz eine Verbesserung um 2,4 Prozent, wobei gleichzeitig die Anzahl der Trainingsparameter um 97,6 Prozent reduziert wird.