HyperAIHyperAI
vor 11 Tagen

SC-Block: Supervised Contrastive Blocking innerhalb von Entity-Resolution-Pipelines

Alexander Brinkmann, Roee Shraga, Christian Bizer
SC-Block: Supervised Contrastive Blocking innerhalb von Entity-Resolution-Pipelines
Abstract

Das Ziel der Entitätsauflösung besteht darin, Datensätze aus mehreren Datenquellen zu identifizieren, die dieselbe reale Weltentität repräsentieren. Die direkte Vergleichbarkeit aller Datensätze untereinander kann jedoch rechenintensiv sein und zu langen Ausführungszeiten führen. Um diese Laufzeiten zu reduzieren, werden Entitätsauflösungspipelines typischerweise aus zwei Komponenten aufgebaut: einem Blocker, der eine rechenkostengünstige Methode verwendet, um Kandidatenpaare auszuwählen, und einem Matcher, der anschließend anhand aufwändigerer Methoden die tatsächlichen Übereinstimmungen aus dieser Kandidatenmenge identifiziert. In dieser Arbeit präsentieren wir SC-Block, einen Blockieransatz, der überwachtes kontrastives Lernen nutzt, um Datensätze im Embedding-Raum zu positionieren, und anschließend eine Nachbarschaftssuche zur Erstellung der Kandidatenmenge einsetzt. Wir benchmarken SC-Block gegenüber acht state-of-the-art-Blockiermethoden. Um den Zusammenhang zwischen der Trainingszeit von SC-Block und der Reduktion der Gesamtlaufzeit der Entitätsauflösungspipeline zu analysieren, kombinieren wir SC-Block mit vier verschiedenen Matchern zu vollständigen Pipelines. Zur Messung der Gesamtlaufzeit bestimmen wir Kandidatenmengen mit einer Paar-Vollständigkeit von 99,5 % und übergeben diese an den Matcher. Die Ergebnisse zeigen, dass SC-Block in der Lage ist, kleinere Kandidatenmengen zu generieren und dass Pipelines mit SC-Block 1,5 bis 2 Mal schneller laufen als solche mit anderen Blockern, ohne die F1-Score-Leistung einzubüßen. Blockiermethoden werden oft an relativ kleinen Datensätzen evaluiert, was dazu führen kann, dass Laufzeit-Effekte, die durch eine große Vokabulargröße verursacht werden, übersehen werden. Um die Laufzeiten in einer anspruchsvolleren Umgebung zu messen, führen wir eine neue Benchmark-Datensammlung ein, die eine große Anzahl an Produktangeboten erfordert, die blockiert werden müssen. Auf dieser großskaligen Benchmark-Datensammlung führen Pipelines, die SC-Block in Kombination mit dem besten Matcher verwenden, die Ausführung 8 Mal schneller durch als Pipelines mit einem anderen Blocker und demselben Matcher – die Laufzeit sinkt dabei von 2,5 Stunden auf 18 Minuten – wodurch die für das Training von SC-Block benötigten 5 Minuten deutlich kompensiert werden.

SC-Block: Supervised Contrastive Blocking innerhalb von Entity-Resolution-Pipelines | Neueste Forschungsarbeiten | HyperAI