Deduplikation über heterogene Attributtypen (D-HAT)
Deduplikation ist die Aufgabe, mehrere Darstellungen desselben realweltlichen Objekts zu erkennen. Die überwiegende Mehrheit der bestehenden Lösungen konzentriert sich auf textuelle Daten, weshalb Datensätze mit booleschen und numerischen Attributtypen in der Literatur selten berücksichtigt werden, während das Problem fehlender Werte unzureichend behandelt wird. Überwachte Ansätze können ohne ausreichend viele gelabelte Beispiele nicht angewendet werden, doch die Erzeugung von Trainingsdaten für die Deduplikation erfordert zeitaufwändige Prozesse. Bei hochdimensionalen Datensätzen ist zudem eine Feature-Engineering-Phase notwendig, um das Risiko von Overfitting zu vermeiden. Um diesen Herausforderungen zu begegnen, gehen wir über bestehende Ansätze hinaus und präsentieren D-HAT, eine clusteringbasierte Pipeline, die inhärent in der Lage ist, hochdimensionale, spärliche und heterogene Attributtypen zu verarbeiten. Kernstück von D-HAT sind: (i) eine neuartige Matching-Funktion, die mehrere Matching-Signale effektiv zusammenfasst, und (ii) MutMax, ein gieriger Clustering-Algorithmus, der Duplikate als Paare mit maximaler gegenseitiger Matching-Score identifiziert. Wir evaluieren D-HAT an fünf etablierten, realen Benchmark-Datensätzen und zeigen, dass unser Ansatz die state-of-the-art-Methoden sowohl im überwachten als auch im unüberwachten Deduplikationsbereich signifikant übertrifft.