Appariement et regroupement évolutifs d'entités avec FAMER
La résolution d’entités vise à identifier des entités sémantiquement équivalentes, par exemple des produits ou des clients identiques décrits de manière différente. Ce défi est particulièrement important dans les applications Big Data, où de grandes quantités de données provenant de multiples sources doivent être appariées et intégrées. Nous introduisons donc un cadre de résolution d’entités évolutif appelé FAMER (FAst Multi-source Entity Resolution system), basé sur Apache Flink pour une exécution distribuée, capable d’effectuer une correspondance globale d’entités issues de plusieurs sources. À cette fin, FAMER intègre plusieurs schémas de regroupement (clustering) qui rassemblent les entités correspondantes provenant de sources différentes dans des clusters. En plus des schémas de clustering déjà connus, FAMER propose de nouvelles approches spécifiquement conçues pour la résolution d’entités multi-sources. Nous menons une évaluation comparative détaillée de huit schémas de clustering sur des jeux de données réels et synthétiques. Cette évaluation prend en compte à la fois la qualité des correspondances et la scalabilité selon le nombre de machines utilisées et la taille des données.