Tiefe Entitätsübereinstimmung mit vortrainierten Sprachmodellen

Wir stellen Ditto vor, ein neuartiges Entitäten-Übereinstimmungssystem, das auf vortrainierten Transformer-basierten Sprachmodellen aufbaut. Wir fine-tunen und formulieren das Entitäten-Übereinstimmungsproblem (EM) als Sequenz-Paar-Klassifizierungsaufgabe, um diese Modelle mit einer einfachen Architektur zu nutzen. Unsere Experimente zeigen, dass eine direkte Anwendung von Sprachmodellen wie BERT, DistilBERT oder RoBERTa, die auf großen Textkorpora vortrainiert wurden, bereits die Übereinstimmungsqualität erheblich verbessert und die bisherigen State-of-the-Art (SOTA)-Ergebnisse um bis zu 29 % im F1-Score auf Benchmark-Datensätzen übertrifft. Zudem haben wir drei Optimierungstechniken entwickelt, um die Übereinstimmungsfähigkeit von Ditto weiter zu steigern. Ditto ermöglicht die Einbindung von Domänenwissen, indem wichtige Eingabestücke hervorgehoben werden, die bei Entscheidungen zur Übereinstimmung relevant sein können. Darüber hinaus fasst Ditto zu lange Zeichenketten zusammen, sodass nur die essentiellen Informationen erhalten und für die EM genutzt werden. Schließlich adaptiert Ditto eine SOTA-Technik zur Datenverstärkung für Text in den Bereich der Entitäten-Übereinstimmung, um die Trainingsdaten mit (schwierigen) Beispielen zu erweitern. Auf diese Weise wird Ditto gezwungen, „schwierigere“ Muster zu lernen, um die Übereinstimmungsfähigkeit des Modells zu verbessern. Die von uns entwickelten Optimierungen steigern die Leistung von Ditto zusätzlich um bis zu 9,8 %. Überraschenderweise zeigen wir außerdem, dass Ditto die bisherigen SOTA-Ergebnisse bereits mit maximal der Hälfte der gelabelten Daten erreichen kann. Schließlich demonstrieren wir die Wirksamkeit von Ditto in einer realen, großskaligen EM-Aufgabe. Bei der Übereinstimmung zweier Unternehmensdatensätze mit jeweils 789.000 und 412.000 Datensätzen erzielt Ditto einen hohen F1-Score von 96,5 %.