HyperAIHyperAI
il y a 17 jours

Adaptation de domaine pour la résolution d'entités profondes : une exploration de l'espace de conception

{Xiaoyong Du, Ruixue Fan, Guoliang Li, Chengliang Chai, Peng Wang, Nan Tang, Ju Fan, Jianhong Tu}
Résumé

La résolution d'entités (Entity Resolution, ER) constitue un problème fondamental de l'intégration des données. Les résultats les plus avancés (state-of-the-art, SOTA) en ER sont actuellement obtenus grâce à des méthodes basées sur l'apprentissage profond (Deep Learning, DL), entraînées sur de grandes quantités de paires étiquetées d'entités correspondantes ou non correspondantes. Ce type de préparation des données n'est pas nécessairement problématique lorsqu'on utilise des jeux de données de référence bien structurés. Toutefois, dans de nombreuses applications réelles d'ER, la situation change radicalement, car la collecte de grands jeux de données étiquetés devient une tâche pénible et coûteuse. Dans cet article, nous nous posons la question suivante : si nous disposons d’un jeu de données source d’ER bien étiqueté, pouvons-nous entraîner un modèle d’ER basé sur l’apprentissage profond pour un jeu de données cible, sans aucune étiquette ou avec seulement quelques étiquettes ? Ce problème est connu sous le nom d’adaptation de domaine (Domain Adaptation, DA), qui a connu un succès remarquable en vision par ordinateur et en traitement du langage naturel, mais qui n’a pas encore été systématiquement étudié dans le cadre de l’ER. Notre objectif est d’explorer de manière systématique les avantages et les limites de diverses méthodes d’adaptation de domaine pour l’ER. À cette fin, nous proposons un cadre DADER (Domain Adaptation for Deep Entity Resolution), qui représente une avancée significative dans l’application de l’adaptation de domaine à l’ER. Nous définissons un espace de solutions de conception pour les trois modules du cadre DADER : extracteur de caractéristiques, module de correspondance (Matcher) et aligneur de caractéristiques (Feature Aligner). Nous menons jusqu’à présent la plus complète étude expérimentale pour explorer cet espace de conception et comparer différentes approches d’adaptation de domaine en ER. Enfin, nous fournissons des recommandations concrètes pour sélectionner les solutions de conception les plus appropriées, fondées sur des expérimentations étendues.

Adaptation de domaine pour la résolution d'entités profondes : une exploration de l'espace de conception | Articles de recherche récents | HyperAI