HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Sparkly: Ein einfacher aber überraschend leistungsfähiger TF/IDF-Blocker für die Entitätenübereinstimmung

{AnHai Doan Yash Govind Derek Paulsen}

Abstract

Blocking ist eine zentrale Aufgabe im Entity-Matching. Obwohl zahlreiche Blocking-Lösungen entwickelt wurden, scheint die Verwendung des etablierten tf/idf-Maßes für Blocking praktisch keine Aufmerksamkeit erhalten zu haben. Dennoch ergab unsere experimentelle Untersuchung mit tf/idf-Blocking unter Verwendung von Lucene, dass dieses Verfahren erstaunlich gut abschneidet. Daher untersuchen wir im vorliegenden Paper tf/idf-Blocking ausführlich. Wir entwickeln Sparkly, ein System, das Lucene nutzt, um top-k-tf/idf-Blocking verteilte, share-nothing-orientiert auf einem Spark-Cluster durchzuführen. Wir stellen Techniken zur Identifizierung geeigneter Attribute und Tokenizer vor, die für das Blocking verwendet werden können, wodurch Sparkly vollständig automatisch wird. Umfassende Experimente zeigen, dass Sparkly acht aktuelle State-of-the-Art-Blocking-Verfahren übertrifft. Schließlich führen wir eine detaillierte Analyse der Leistungsfähigkeit von Sparkly durch, wobei sowohl Recall/Output-Größe als auch Laufzeit betrachtet werden. Unsere Erkenntnisse deuten darauf hin, dass (a) tf/idf-Blocking mehr Aufmerksamkeit verdient, (b) Sparkly eine starke Baseline darstellt, gegen die zukünftige Blocking-Forschung abgestimmt werden sollte, und (c) zukünftige Arbeiten ernsthaft top-k-Blocking und eine verteilte share-nothing-Architektur in Betracht ziehen sollten, da letztere die Skalierbarkeit, Vorhersagbarkeit und Erweiterbarkeit verbessert und ersteres den Recall erhöht.

Benchmarks

BenchmarkMethodikMetriken
blocking-on-abt-buySparkly k=50
Candidate Set Size: 54500
Recall: 99.2
blocking-on-abt-buySparkly k=10
Candidate Set Size: 10900
Recall: 98.1
blocking-on-amazon-googleSparkly k=50
Candidate Set Size: 165900
Recall: 99.2
blocking-on-amazon-googleSparkly k=10
Candidate Set Size: 33300
Recall: 96.8

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sparkly: Ein einfacher aber überraschend leistungsfähiger TF/IDF-Blocker für die Entitätenübereinstimmung | Forschungsarbeiten | HyperAI