Deep Learning für Entity Matching: Eine Erkundung des Gestaltungsraums

Die Entitätenübereinstimmung (Entity Matching, EM) identifiziert Dateninstanzen, die auf dieselbe reale Weltentität verweisen. In diesem Artikel untersuchen wir die Anwendung von Deep Learning (DL) auf die EM, um die Vor- und Nachteile von DL zu verstehen. Wir überblicken zahlreiche DL-Lösungen, die für verwandte Übereinstimmungsaufgaben im Bereich der Textverarbeitung entwickelt wurden (z. B. Entitätenverknüpfung, textuelle Implikation usw.). Wir kategorisieren diese Lösungen und definieren einen Lösungsraum für DL in der EM, der durch vier Ansätze mit unterschiedlichem Repräsentationsvermögen repräsentiert wird: SIF, RNN, Attention und Hybrid. Anschließend untersuchen wir, für welche Arten von EM-Problemen DL nützlich sein kann. Wir betrachten drei solche Problemtypen, die jeweils strukturierte, textuelle und verschmutzte Dateninstanzen betreffen. Wir vergleichen die oben genannten vier DL-Lösungen empirisch mit Magellan, einer state-of-the-art, lernbasierten EM-Lösung. Die Ergebnisse zeigen, dass DL bei strukturierter EM derzeit nicht die bestehenden Lösungen übertrifft, jedoch erheblich besser abschneidet bei textueller und verschmutzter EM. Für Praktiker bedeutet dies, dass sie DL bei textuellen und verschmutzten EM-Aufgaben ernsthaft in Betracht ziehen sollten. Abschließend analysieren wir die Leistungsfähigkeit von DL und diskutieren zukünftige Forschungsrichtungen.