HyperAIHyperAI
il y a 11 jours

Apprentissage profond pour le blocage dans l’appariement d’entités : une exploration de l’espace de conception

{AnHai Doan, Glenn Fung, Derek Paulsen, Yash Govind, Mourad Ouzzani, Nan Tang, Han Li, Saravanan Thirumuruganathan}
Résumé

L’appariement d’entités (Entity Matching, EM) consiste à identifier des instances de données qui font référence à la même entité du monde réel. La plupart des solutions EM procèdent en deux étapes : blocage (blocking), suivi d’appariement. Bien que de nombreuses études aient appliqué l’apprentissage profond (Deep Learning, DL) à l’étape d’appariement, très peu se sont intéressées à l’application du DL au blocage. De plus, les travaux existants sur le blocage par DL sont limités : ils ne considèrent qu’une forme simplifiée d’apprentissage profond, et certains nécessitent des données d’entraînement étiquetées. Dans cet article, nous proposons le cadre DeepBlocker, qui marque une avancée significative de l’état de l’art dans l’application du DL au blocage pour l’EM. Nous définissons d’abord un vaste espace de solutions basées sur le DL pour le blocage, incluant des approches de complexité variable et englobant la majorité des travaux antérieurs. Ensuite, nous développons huit solutions représentatives dans cet espace. Ces solutions ne nécessitent pas de données d’entraînement étiquetées et exploitent des progrès récents du DL (par exemple, la modélisation de séquences, les transformateurs, l’apprentissage auto-supervisé). Nous évaluons empiriquement les performances de ces solutions sur différents types de jeux de données (structurés, textuels ou bruyants) afin d’identifier celles qui se distinguent selon le contexte. Nous montrons que les meilleures solutions parmi les huit proposées surpassent à la fois la meilleure solution DL existante et les meilleures solutions non-DL existantes (y compris une solution industrielle de pointe non-DL), notamment sur des données textuelles et bruyantes, tout en étant comparables sur des données structurées. Enfin, nous démontrons que la combinaison des meilleures solutions DL et non-DL peut conduire à des performances encore supérieures, ouvrant ainsi une nouvelle piste de recherche prometteuse.

Apprentissage profond pour le blocage dans l’appariement d’entités : une exploration de l’espace de conception | Articles de recherche récents | HyperAI