HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Deep Learning für das Blocking bei der Entitätenübereinstimmung: eine Exploration des Gestaltungsraums

{AnHai Doan Glenn Fung Derek Paulsen Yash Govind Mourad Ouzzani Nan Tang Han Li Saravanan Thirumuruganathan}

Abstract

Entitätsübereinstimmung (Entity Matching, EM) identifiziert Dateneinträge, die dieselbe reale Weltentität bezeichnen. Die meisten EM-Lösungen bestehen aus zwei Schritten: Blocking gefolgt von Matching. Obwohl zahlreiche Arbeiten Deep Learning (DL) für das Matching eingesetzt haben, wurde DL im Bereich Blocking vergleichsweise selten angewandt. Zudem sind die bisherigen Arbeiten im Blocking-Bereich eingeschränkt, da sie lediglich eine einfache Form von DL nutzen und teilweise annotierte Trainingsdaten erfordern. In diesem Paper stellen wir den DeepBlocker-Framework vor, das einen signifikanten Fortschritt im Einsatz von DL für das Blocking in der EM darstellt. Zunächst definieren wir einen umfassenden Raum möglicher DL-Lösungen für Blocking, der Lösungen unterschiedlicher Komplexität beinhaltet und die meisten bisherigen Ansätze umfasst. Anschließend entwickeln wir acht repräsentative Lösungen innerhalb dieses Raums. Diese Lösungen erfordern keine gelabelten Trainingsdaten und nutzen neuere Fortschritte im Bereich des Deep Learning (z. B. Sequenzmodellierung, Transformer, Selbstüberwachung). Wir bestimmen empirisch, welche Lösungen auf welchen Datentypen (strukturiert, textuell oder verunreinigt) am besten abschneiden. Wir zeigen, dass die besten Lösungen (unter den acht vorgestellten) sowohl die bisher beste DL-basierte Lösung als auch die besten bestehenden nicht-DL-Methoden (einschließlich einer state-of-the-art industriellen nicht-DL-Lösung) bei verunreinigten und textuellen Daten übertrifft und bei strukturierten Daten vergleichbare Ergebnisse erzielt. Schließlich zeigen wir, dass die Kombination der besten DL- und nicht-DL-Lösungen noch bessere Leistungen erbringt, was einen neuen Forschungspfad eröffnet.

Benchmarks

BenchmarkMethodikMetriken
blocking-on-abt-buyAuto
Candidate Set Size: 21600
Recall: 87.2
blocking-on-amazon-googleAuto
Candidate Set Size: 68200
Recall: 97.1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Deep Learning für das Blocking bei der Entitätenübereinstimmung: eine Exploration des Gestaltungsraums | Forschungsarbeiten | HyperAI