HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierbare Zuordnung und Clustering von Entitäten mit FAMER

Erhard Rahm Eric Peukert Markus Nentwig Alieh Saeedi

Zusammenfassung

Die Entitätsauflösung identifiziert semantisch äquivalente Entitäten, beispielsweise verschiedene Beschreibungen desselben Produkts oder Kunden. Sie ist besonders herausfordernd für Big-Data-Anwendungen, bei denen große Datenmengen aus zahlreichen Quellen abgeglichen und integriert werden müssen. Wir stellen daher einen skalierbaren Rahmen für die Entitätsauflösung vor, namens FAMER (FAst Multi-source Entity Resolution system), der auf Apache Flink für die verteilte Ausführung basiert und Entitäten aus mehreren Quellen ganzheitlich abbilden kann. Hierzu integriert FAMER mehrere Clustering-Verfahren, die entitätsähnliche Objekte aus unterschiedlichen Quellen in Clustern zusammenfasst. Neben bereits bekannten Clustering-Ansätzen umfasst FAMER zudem neue, speziell auf die mehrquellenbasierte Entitätsauflösung abgestimmte Verfahren. Wir führen eine detaillierte vergleichende Evaluierung von acht Clustering-Schemata an verschiedenen realen und synthetisch generierten Datensätzen durch. Die Bewertung berücksichtigt sowohl die Übereinstimmungsqualität als auch die Skalierbarkeit bei unterschiedlichen Maschinenzahlen und Datenmengen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp