HyperAIHyperAI

Command Palette

Search for a command to run...

Deduplikation über heterogene Attributtypen (D-HAT)

George Papadakis Loujain Liekah

Zusammenfassung

Deduplikation ist die Aufgabe, mehrere Darstellungen desselben realweltlichen Objekts zu erkennen. Die überwiegende Mehrheit der bestehenden Lösungen konzentriert sich auf textuelle Daten, weshalb Datensätze mit booleschen und numerischen Attributtypen in der Literatur selten berücksichtigt werden, während das Problem fehlender Werte unzureichend behandelt wird. Überwachte Ansätze können ohne ausreichend viele gelabelte Beispiele nicht angewendet werden, doch die Erzeugung von Trainingsdaten für die Deduplikation erfordert zeitaufwändige Prozesse. Bei hochdimensionalen Datensätzen ist zudem eine Feature-Engineering-Phase notwendig, um das Risiko von Overfitting zu vermeiden. Um diesen Herausforderungen zu begegnen, gehen wir über bestehende Ansätze hinaus und präsentieren D-HAT, eine clusteringbasierte Pipeline, die inhärent in der Lage ist, hochdimensionale, spärliche und heterogene Attributtypen zu verarbeiten. Kernstück von D-HAT sind: (i) eine neuartige Matching-Funktion, die mehrere Matching-Signale effektiv zusammenfasst, und (ii) MutMax, ein gieriger Clustering-Algorithmus, der Duplikate als Paare mit maximaler gegenseitiger Matching-Score identifiziert. Wir evaluieren D-HAT an fünf etablierten, realen Benchmark-Datensätzen und zeigen, dass unser Ansatz die state-of-the-art-Methoden sowohl im überwachten als auch im unüberwachten Deduplikationsbereich signifikant übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Deduplikation über heterogene Attributtypen (D-HAT) | Paper | HyperAI