vor 6 Monaten

Zusammenfassung

Deduplikation ist die Aufgabe, mehrere Darstellungen desselben realweltlichen Objekts zu erkennen. Die überwiegende Mehrheit der bestehenden Lösungen konzentriert sich auf textuelle Daten, weshalb Datensätze mit booleschen und numerischen Attributtypen in der Literatur selten berücksichtigt werden, während das Problem fehlender Werte unzureichend behandelt wird. Überwachte Ansätze können ohne ausreichend viele gelabelte Beispiele nicht angewendet werden, doch die Erzeugung von Trainingsdaten für die Deduplikation erfordert zeitaufwändige Prozesse. Bei hochdimensionalen Datensätzen ist zudem eine Feature-Engineering-Phase notwendig, um das Risiko von Overfitting zu vermeiden. Um diesen Herausforderungen zu begegnen, gehen wir über bestehende Ansätze hinaus und präsentieren D-HAT, eine clusteringbasierte Pipeline, die inhärent in der Lage ist, hochdimensionale, spärliche und heterogene Attributtypen zu verarbeiten. Kernstück von D-HAT sind: (i) eine neuartige Matching-Funktion, die mehrere Matching-Signale effektiv zusammenfasst, und (ii) MutMax, ein gieriger Clustering-Algorithmus, der Duplikate als Paare mit maximaler gegenseitiger Matching-Score identifiziert. Wir evaluieren D-HAT an fünf etablierten, realen Benchmark-Datensätzen und zeigen, dass unser Ansatz die state-of-the-art-Methoden sowohl im überwachten als auch im unüberwachten Deduplikationsbereich signifikant übertrifft.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Natürliche Sprachverarbeitung

Aufgabe

George Papadakis Loujain Liekah

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Natürliche Sprachverarbeitung

Aufgabe

George Papadakis Loujain Liekah

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Deduplikation über heterogene Attributtypen (D-HAT)

George Papadakis Loujain Liekah

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Deduplikation über heterogene Attributtypen (D-HAT)

George Papadakis Loujain Liekah

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Deduplikation über heterogene Attributtypen (D-HAT)

George Papadakis Loujain Liekah

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters