Deep Learning für das Blocking bei der Entitätenübereinstimmung: eine Exploration des Gestaltungsraums
Entitätsübereinstimmung (Entity Matching, EM) identifiziert Dateneinträge, die dieselbe reale Weltentität bezeichnen. Die meisten EM-Lösungen bestehen aus zwei Schritten: Blocking gefolgt von Matching. Obwohl zahlreiche Arbeiten Deep Learning (DL) für das Matching eingesetzt haben, wurde DL im Bereich Blocking vergleichsweise selten angewandt. Zudem sind die bisherigen Arbeiten im Blocking-Bereich eingeschränkt, da sie lediglich eine einfache Form von DL nutzen und teilweise annotierte Trainingsdaten erfordern. In diesem Paper stellen wir den DeepBlocker-Framework vor, das einen signifikanten Fortschritt im Einsatz von DL für das Blocking in der EM darstellt. Zunächst definieren wir einen umfassenden Raum möglicher DL-Lösungen für Blocking, der Lösungen unterschiedlicher Komplexität beinhaltet und die meisten bisherigen Ansätze umfasst. Anschließend entwickeln wir acht repräsentative Lösungen innerhalb dieses Raums. Diese Lösungen erfordern keine gelabelten Trainingsdaten und nutzen neuere Fortschritte im Bereich des Deep Learning (z. B. Sequenzmodellierung, Transformer, Selbstüberwachung). Wir bestimmen empirisch, welche Lösungen auf welchen Datentypen (strukturiert, textuell oder verunreinigt) am besten abschneiden. Wir zeigen, dass die besten Lösungen (unter den acht vorgestellten) sowohl die bisher beste DL-basierte Lösung als auch die besten bestehenden nicht-DL-Methoden (einschließlich einer state-of-the-art industriellen nicht-DL-Lösung) bei verunreinigten und textuellen Daten übertrifft und bei strukturierten Daten vergleichbare Ergebnisse erzielt. Schließlich zeigen wir, dass die Kombination der besten DL- und nicht-DL-Lösungen noch bessere Leistungen erbringt, was einen neuen Forschungspfad eröffnet.