HyperAIHyperAI
vor 18 Tagen

Deep Learning für Entity Matching: Eine Erkundung des Gestaltungsraums

{Vijay Raghavendra, Esteban Arcaute, Rohit Deep, Ganesh Krishnan, Youngchoon Park, AnHai Doan, Theodoros Rekatsinas, Han Li, Sidharth Mudgal}
Deep Learning für Entity Matching: Eine Erkundung des Gestaltungsraums
Abstract

Die Entitätenübereinstimmung (Entity Matching, EM) identifiziert Dateninstanzen, die auf dieselbe reale Weltentität verweisen. In diesem Artikel untersuchen wir die Anwendung von Deep Learning (DL) auf die EM, um die Vor- und Nachteile von DL zu verstehen. Wir überblicken zahlreiche DL-Lösungen, die für verwandte Übereinstimmungsaufgaben im Bereich der Textverarbeitung entwickelt wurden (z. B. Entitätenverknüpfung, textuelle Implikation usw.). Wir kategorisieren diese Lösungen und definieren einen Lösungsraum für DL in der EM, der durch vier Ansätze mit unterschiedlichem Repräsentationsvermögen repräsentiert wird: SIF, RNN, Attention und Hybrid. Anschließend untersuchen wir, für welche Arten von EM-Problemen DL nützlich sein kann. Wir betrachten drei solche Problemtypen, die jeweils strukturierte, textuelle und verschmutzte Dateninstanzen betreffen. Wir vergleichen die oben genannten vier DL-Lösungen empirisch mit Magellan, einer state-of-the-art, lernbasierten EM-Lösung. Die Ergebnisse zeigen, dass DL bei strukturierter EM derzeit nicht die bestehenden Lösungen übertrifft, jedoch erheblich besser abschneidet bei textueller und verschmutzter EM. Für Praktiker bedeutet dies, dass sie DL bei textuellen und verschmutzten EM-Aufgaben ernsthaft in Betracht ziehen sollten. Abschließend analysieren wir die Leistungsfähigkeit von DL und diskutieren zukünftige Forschungsrichtungen.