Command Palette
Search for a command to run...
Skalierbare Zuordnung und Clustering von Entitäten mit FAMER
Skalierbare Zuordnung und Clustering von Entitäten mit FAMER
Erhard Rahm Eric Peukert Markus Nentwig Alieh Saeedi
Zusammenfassung
Die Entitätsauflösung identifiziert semantisch äquivalente Entitäten, beispielsweise verschiedene Beschreibungen desselben Produkts oder Kunden. Sie ist besonders herausfordernd für Big-Data-Anwendungen, bei denen große Datenmengen aus zahlreichen Quellen abgeglichen und integriert werden müssen. Wir stellen daher einen skalierbaren Rahmen für die Entitätsauflösung vor, namens FAMER (FAst Multi-source Entity Resolution system), der auf Apache Flink für die verteilte Ausführung basiert und Entitäten aus mehreren Quellen ganzheitlich abbilden kann. Hierzu integriert FAMER mehrere Clustering-Verfahren, die entitätsähnliche Objekte aus unterschiedlichen Quellen in Clustern zusammenfasst. Neben bereits bekannten Clustering-Ansätzen umfasst FAMER zudem neue, speziell auf die mehrquellenbasierte Entitätsauflösung abgestimmte Verfahren. Wir führen eine detaillierte vergleichende Evaluierung von acht Clustering-Schemata an verschiedenen realen und synthetisch generierten Datensätzen durch. Die Bewertung berücksichtigt sowohl die Übereinstimmungsqualität als auch die Skalierbarkeit bei unterschiedlichen Maschinenzahlen und Datenmengen.