HyperAIHyperAI

Command Palette

Search for a command to run...

Sparkly: Ein einfacher aber überraschend leistungsfähiger TF/IDF-Blocker für die Entitätenübereinstimmung

AnHai Doan Yash Govind Derek Paulsen

Zusammenfassung

Blocking ist eine zentrale Aufgabe im Entity-Matching. Obwohl zahlreiche Blocking-Lösungen entwickelt wurden, scheint die Verwendung des etablierten tf/idf-Maßes für Blocking praktisch keine Aufmerksamkeit erhalten zu haben. Dennoch ergab unsere experimentelle Untersuchung mit tf/idf-Blocking unter Verwendung von Lucene, dass dieses Verfahren erstaunlich gut abschneidet. Daher untersuchen wir im vorliegenden Paper tf/idf-Blocking ausführlich. Wir entwickeln Sparkly, ein System, das Lucene nutzt, um top-k-tf/idf-Blocking verteilte, share-nothing-orientiert auf einem Spark-Cluster durchzuführen. Wir stellen Techniken zur Identifizierung geeigneter Attribute und Tokenizer vor, die für das Blocking verwendet werden können, wodurch Sparkly vollständig automatisch wird. Umfassende Experimente zeigen, dass Sparkly acht aktuelle State-of-the-Art-Blocking-Verfahren übertrifft. Schließlich führen wir eine detaillierte Analyse der Leistungsfähigkeit von Sparkly durch, wobei sowohl Recall/Output-Größe als auch Laufzeit betrachtet werden. Unsere Erkenntnisse deuten darauf hin, dass (a) tf/idf-Blocking mehr Aufmerksamkeit verdient, (b) Sparkly eine starke Baseline darstellt, gegen die zukünftige Blocking-Forschung abgestimmt werden sollte, und (c) zukünftige Arbeiten ernsthaft top-k-Blocking und eine verteilte share-nothing-Architektur in Betracht ziehen sollten, da letztere die Skalierbarkeit, Vorhersagbarkeit und Erweiterbarkeit verbessert und ersteres den Recall erhöht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp