Apprentissage profond pour l’appariement d’entités : une exploration de l’espace de conception

L’appariement d’entités (Entity Matching, EM) consiste à identifier des instances de données qui font référence à la même entité du monde réel. Dans cet article, nous examinons l’application de l’apprentissage profond (Deep Learning, DL) à l’EM afin de comprendre les avantages et les limites du DL. Nous passons en revue de nombreuses solutions basées sur le DL développées pour des tâches connexes en traitement du texte (par exemple, l’association d’entités, l’entraînement textuel, etc.). Nous classifions ces solutions et définissons un espace de solutions basées sur le DL pour l’EM, illustré par quatre approches présentant des niveaux variés de puissance représentationnelle : SIF, RNN, Attention et Hybrid. Ensuite, nous étudions les types de problèmes d’EM pour lesquels le DL peut s’avérer utile. Nous considérons trois catégories de problèmes, correspondant respectivement aux instances structurées, aux instances textuelles et aux instances brutes (dirty). Nous comparons empiriquement ces quatre solutions basées sur le DL avec Magellan, une solution d’EM fondée sur l’apprentissage, considérée comme de pointe. Les résultats montrent que le DL ne surpasse pas les solutions actuelles dans le cas de l’EM structuré, mais qu’il peut significativement les dépasser dans les cas d’EM textuel et d’EM sur données brutes. Pour les praticiens, cela suggère qu’ils devraient sérieusement envisager l’utilisation du DL pour les problèmes d’EM textuel et d’EM sur données brutes. Enfin, nous analysons les performances du DL et discutons de directions futures de recherche.