Sparkly: Ein einfacher aber überraschend leistungsfähiger TF/IDF-Blocker für die Entitätenübereinstimmung
Blocking ist eine zentrale Aufgabe im Entity-Matching. Obwohl zahlreiche Blocking-Lösungen entwickelt wurden, scheint die Verwendung des etablierten tf/idf-Maßes für Blocking praktisch keine Aufmerksamkeit erhalten zu haben. Dennoch ergab unsere experimentelle Untersuchung mit tf/idf-Blocking unter Verwendung von Lucene, dass dieses Verfahren erstaunlich gut abschneidet. Daher untersuchen wir im vorliegenden Paper tf/idf-Blocking ausführlich. Wir entwickeln Sparkly, ein System, das Lucene nutzt, um top-k-tf/idf-Blocking verteilte, share-nothing-orientiert auf einem Spark-Cluster durchzuführen. Wir stellen Techniken zur Identifizierung geeigneter Attribute und Tokenizer vor, die für das Blocking verwendet werden können, wodurch Sparkly vollständig automatisch wird. Umfassende Experimente zeigen, dass Sparkly acht aktuelle State-of-the-Art-Blocking-Verfahren übertrifft. Schließlich führen wir eine detaillierte Analyse der Leistungsfähigkeit von Sparkly durch, wobei sowohl Recall/Output-Größe als auch Laufzeit betrachtet werden. Unsere Erkenntnisse deuten darauf hin, dass (a) tf/idf-Blocking mehr Aufmerksamkeit verdient, (b) Sparkly eine starke Baseline darstellt, gegen die zukünftige Blocking-Forschung abgestimmt werden sollte, und (c) zukünftige Arbeiten ernsthaft top-k-Blocking und eine verteilte share-nothing-Architektur in Betracht ziehen sollten, da letztere die Skalierbarkeit, Vorhersagbarkeit und Erweiterbarkeit verbessert und ersteres den Recall erhöht.