HyperAIHyperAI
il y a 18 jours

CorDEL : Une Approche d'Apprentissage Profond Contrastif pour l'Appariement d'Entités

Zhengyang Wang, Bunyamin Sisman, Hao Wei, Xin Luna Dong, Shuiwang Ji
CorDEL : Une Approche d'Apprentissage Profond Contrastif pour l'Appariement d'Entités
Résumé

L’association d’entités (Entity Linkage, EL) constitue un problème fondamental dans le nettoyage et l’intégration des données. Au cours des dernières décennies, l’EL a généralement été abordé à l’aide de systèmes basés sur des règles ou de modèles d’apprentissage automatique traditionnels utilisant des caractéristiques soigneusement conçues manuellement, deux approches qui dépendent fortement des interventions humaines. Avec la croissance exponentielle des données nouvelles, des approches fondées sur l’apprentissage profond (Deep Learning, DL) ont été proposées afin de réduire le coût élevé associé à l’EL dans les modèles traditionnels. Toutefois, les recherches existantes sur les modèles DL pour l’EL suivent strictement l’architecture classique à deux réseaux jumeaux. Nous affirmons toutefois que cette architecture est sous-optimale pour l’EL, entraînant des défauts inhérents dans les modèles actuels. Afin de surmonter ces limitations, nous proposons un nouveau cadre généralisé fondé sur le contraste pour l’EL, basé sur l’apprentissage profond. Ce cadre innovant permet de capturer à la fois les signaux de correspondance syntaxique et sémantique, tout en accordant une attention particulière aux différences subtiles mais cruciales. À partir de ce cadre, nous avons développé une approche d’EL basée sur le contraste, appelée CorDEL, comprenant trois variantes puissantes. Nous avons évalué CorDEL à l’aide d’expériences étendues menées sur des jeux de données publics de référence ainsi qu’un jeu de données réel. Les résultats montrent que CorDEL surpasser les modèles de pointe précédents de 5,2 % sur les jeux de données publics. En outre, CorDEL améliore de 2,4 % le meilleur modèle DL actuel sur le jeu de données réel, tout en réduisant de 97,6 % le nombre de paramètres d’entraînement.