Dual-Objective Fine-Tuning von BERT für Entity-Matching

Eine wachsende Anzahl von Datenanbietern hat gemeinsame Nummerierungsmodelle wie GTIN, ISBN, DUNS oder ORCID zur Identifizierung von Entitäten in ihren jeweiligen Domänen übernommen. Dies bedeutet für die Datenintegration, dass für eine Teilmenge der zu integrierenden Entitätsbeschreibungen häufig gemeinsame Identifikatoren verfügbar sind, während diese für andere Beschreibungen fehlen. Die Herausforderung in solchen Szenarien besteht darin, einen Matcher für Entitätsbeschreibungen ohne Identifikatoren zu lernen, wobei als Trainingsdaten Beschreibungen mit Identifikatoren verwendet werden. Diese Aufgabe kann durch das Lernen eines binären Klassifikators angegangen werden, der Paare von Entitätsbeschreibungen für dieselbe realweltliche Entität von Beschreibungen unterschiedlicher Entitäten unterscheidet. Alternativ kann das Problem auch als mehrklassige Klassifikationsaufgabe modelliert werden, indem Klassifikatoren für die Identifizierung einzelner Entitäten gelernt werden. Wir stellen eine dual-objektive Trainingsmethode für BERT vor, genannt JointBERT, die binäre Übereinstimmungserkennung und mehrklassige Klassifikation kombiniert und das Modell dazu zwingt, neben der Entscheidung „Übereinstimmung/keine Übereinstimmung“ für jedes Paar von Entitätsbeschreibungen auch die jeweilige Entitäts-ID vorherzusagen. Unsere Evaluation an fünf Benchmark-Datensätzen für Entitätsübereinstimmung zeigt, dass die dual-objektive Trainierung die Übereinstimmungsleistung für bekannte Produkte im Vergleich zu einobjektiven Transformer-basierten Methoden um 1 bis 5 Prozentpunkte F1 steigern kann, vorausgesetzt, dass ausreichend Trainingsdaten für beide Ziele zur Verfügung stehen. Um ein tieferes Verständnis der Stärken und Schwächen der vorgeschlagenen Methode zu gewinnen, vergleichen wir JointBERT mit mehreren anderen BERT-basierten Matching-Methoden sowie Baseline-Systemen anhand einer Reihe spezifischer Matching-Herausforderungen. Die Evaluation zeigt, dass JointBERT bei ausreichendem Trainingssatz für beide Ziele die anderen Methoden bei Aufgaben mit bekannten Produkten übertrifft, jedoch bei nicht bekannten Produkten schlechtere Ergebnisse liefert. Durch die Kombination von LIME-Erklärungen und domänenspezifischen Wortklassen analysieren wir die Entscheidungen verschiedener Deep-Learning-Modelle und kommen zu dem Schluss, dass BERT-basierte Modelle im Vergleich zu RNN-basierten Modellen besser in der Lage sind, sich auf relevante Wortklassen zu konzentrieren.