HyperAIHyperAI
vor 18 Tagen

Skalierbare Zuordnung und Clustering von Entitäten mit FAMER

{Erhard Rahm, Eric Peukert, Markus Nentwig, Alieh Saeedi}
Abstract

Die Entitätsauflösung identifiziert semantisch äquivalente Entitäten, beispielsweise verschiedene Beschreibungen desselben Produkts oder Kunden. Sie ist besonders herausfordernd für Big-Data-Anwendungen, bei denen große Datenmengen aus zahlreichen Quellen abgeglichen und integriert werden müssen. Wir stellen daher einen skalierbaren Rahmen für die Entitätsauflösung vor, namens FAMER (FAst Multi-source Entity Resolution system), der auf Apache Flink für die verteilte Ausführung basiert und Entitäten aus mehreren Quellen ganzheitlich abbilden kann. Hierzu integriert FAMER mehrere Clustering-Verfahren, die entitätsähnliche Objekte aus unterschiedlichen Quellen in Clustern zusammenfasst. Neben bereits bekannten Clustering-Ansätzen umfasst FAMER zudem neue, speziell auf die mehrquellenbasierte Entitätsauflösung abgestimmte Verfahren. Wir führen eine detaillierte vergleichende Evaluierung von acht Clustering-Schemata an verschiedenen realen und synthetisch generierten Datensätzen durch. Die Bewertung berücksichtigt sowohl die Übereinstimmungsqualität als auch die Skalierbarkeit bei unterschiedlichen Maschinenzahlen und Datenmengen.