HyperAI

Abstract

Blocking ist eine zentrale Aufgabe im Entity-Matching. Obwohl zahlreiche Blocking-Lösungen entwickelt wurden, scheint die Verwendung des etablierten tf/idf-Maßes für Blocking praktisch keine Aufmerksamkeit erhalten zu haben. Dennoch ergab unsere experimentelle Untersuchung mit tf/idf-Blocking unter Verwendung von Lucene, dass dieses Verfahren erstaunlich gut abschneidet. Daher untersuchen wir im vorliegenden Paper tf/idf-Blocking ausführlich. Wir entwickeln Sparkly, ein System, das Lucene nutzt, um top-k-tf/idf-Blocking verteilte, share-nothing-orientiert auf einem Spark-Cluster durchzuführen. Wir stellen Techniken zur Identifizierung geeigneter Attribute und Tokenizer vor, die für das Blocking verwendet werden können, wodurch Sparkly vollständig automatisch wird. Umfassende Experimente zeigen, dass Sparkly acht aktuelle State-of-the-Art-Blocking-Verfahren übertrifft. Schließlich führen wir eine detaillierte Analyse der Leistungsfähigkeit von Sparkly durch, wobei sowohl Recall/Output-Größe als auch Laufzeit betrachtet werden. Unsere Erkenntnisse deuten darauf hin, dass (a) tf/idf-Blocking mehr Aufmerksamkeit verdient, (b) Sparkly eine starke Baseline darstellt, gegen die zukünftige Blocking-Forschung abgestimmt werden sollte, und (c) zukünftige Arbeiten ernsthaft top-k-Blocking und eine verteilte share-nothing-Architektur in Betracht ziehen sollten, da letztere die Skalierbarkeit, Vorhersagbarkeit und Erweiterbarkeit verbessert und ersteres den Recall erhöht.

Benchmarks

Benchmark	Methodik	Metriken
blocking-on-abt-buy	Sparkly k=50	Candidate Set Size: 54500 Recall: 99.2
blocking-on-abt-buy	Sparkly k=10	Candidate Set Size: 10900 Recall: 98.1
blocking-on-amazon-google	Sparkly k=50	Candidate Set Size: 165900 Recall: 99.2
blocking-on-amazon-google	Sparkly k=10	Candidate Set Size: 33300 Recall: 96.8

Sparkly: Ein einfacher aber überraschend leistungsfähiger TF/IDF-Blocker für die Entitätenübereinstimmung

{AnHai Doan Yash Govind Derek Paulsen}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Sparkly: Ein einfacher aber überraschend leistungsfähiger TF/IDF-Blocker für die Entitätenübereinstimmung

{AnHai Doan Yash Govind Derek Paulsen}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters