HyperAIHyperAI
il y a 17 jours

Optimisation fine à objectifs doubles de BERT pour l'appariement d'entités

{Christian Bizer, Ralph Peeters}
Optimisation fine à objectifs doubles de BERT pour l'appariement d'entités
Résumé

Un nombre croissant de fournisseurs de données ont adopté des systèmes de numérotation partagés, tels que les GTIN, ISBN, DUNS ou ORCID, pour identifier les entités dans leurs domaines respectifs. Cela implique que, dans le cadre de l’intégration de données, des identifiants partagés sont souvent disponibles pour une sous-ensemble des descriptions d’entités à intégrer, tandis qu’ils sont absents pour d’autres. Le défi dans ces contextes consiste à apprendre un modèle de correspondance pour des descriptions d’entités sans identifiant, en utilisant comme données d’entraînement des descriptions d’entités qui contiennent des identifiants. Cette tâche peut être abordée en apprenant un classificateur binaire qui distingue les paires de descriptions d’entités correspondant à une même entité du monde réel de celles qui correspondent à des entités différentes. Elle peut également être modélisée comme un problème de classification multi-classes, en apprenant des classificateurs capables d’identifier les descriptions d’entités individuelles. Nous proposons une méthode d’entraînement à double objectif pour BERT, appelée JointBERT, qui combine la correspondance binaire et la classification multi-classes, en obligeant le modèle à prédire l’identifiant de l’entité pour chaque description dans une paire d’entraînement, en plus de la décision de correspondance ou non. Notre évaluation sur cinq jeux de données de référence pour la correspondance d’entités montre qu’un entraînement à double objectif peut améliorer les performances de correspondance, pour les produits déjà vus, de 1 à 5 points F1 par rapport aux méthodes basées sur des Transformers à objectif unique, à condition qu’un volume suffisant de données d’entraînement soit disponible pour les deux objectifs. Afin de mieux comprendre les forces et faiblesses de la méthode proposée, nous comparons JointBERT à plusieurs autres méthodes de correspondance basées sur BERT ainsi qu’à des systèmes de base, selon un ensemble de défis spécifiques de correspondance. Cette évaluation révèle que, lorsque des données d’entraînement suffisantes sont disponibles pour les deux objectifs, JointBERT surpasse les autres méthodes sur les tâches impliquant des produits déjà vus, tandis qu’elle se révèle moins performante pour les produits inconnus. En combinant des explications basées sur LIME et des classes de mots spécifiques au domaine, nous analysons les décisions de correspondance des différents modèles d’apprentissage profond et concluons que les modèles basés sur BERT sont mieux capables de se concentrer sur les classes de mots pertinentes que les modèles basés sur des RNN.