HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefe Entitätsübereinstimmung mit vortrainierten Sprachmodellen

Yuliang Li Jinfeng Li Yoshihiko Suhara AnHai Doan Wang-Chiew Tan

Zusammenfassung

Wir stellen Ditto vor, ein neuartiges Entitäten-Übereinstimmungssystem, das auf vortrainierten Transformer-basierten Sprachmodellen aufbaut. Wir fine-tunen und formulieren das Entitäten-Übereinstimmungsproblem (EM) als Sequenz-Paar-Klassifizierungsaufgabe, um diese Modelle mit einer einfachen Architektur zu nutzen. Unsere Experimente zeigen, dass eine direkte Anwendung von Sprachmodellen wie BERT, DistilBERT oder RoBERTa, die auf großen Textkorpora vortrainiert wurden, bereits die Übereinstimmungsqualität erheblich verbessert und die bisherigen State-of-the-Art (SOTA)-Ergebnisse um bis zu 29 % im F1-Score auf Benchmark-Datensätzen übertrifft. Zudem haben wir drei Optimierungstechniken entwickelt, um die Übereinstimmungsfähigkeit von Ditto weiter zu steigern. Ditto ermöglicht die Einbindung von Domänenwissen, indem wichtige Eingabestücke hervorgehoben werden, die bei Entscheidungen zur Übereinstimmung relevant sein können. Darüber hinaus fasst Ditto zu lange Zeichenketten zusammen, sodass nur die essentiellen Informationen erhalten und für die EM genutzt werden. Schließlich adaptiert Ditto eine SOTA-Technik zur Datenverstärkung für Text in den Bereich der Entitäten-Übereinstimmung, um die Trainingsdaten mit (schwierigen) Beispielen zu erweitern. Auf diese Weise wird Ditto gezwungen, „schwierigere“ Muster zu lernen, um die Übereinstimmungsfähigkeit des Modells zu verbessern. Die von uns entwickelten Optimierungen steigern die Leistung von Ditto zusätzlich um bis zu 9,8 %. Überraschenderweise zeigen wir außerdem, dass Ditto die bisherigen SOTA-Ergebnisse bereits mit maximal der Hälfte der gelabelten Daten erreichen kann. Schließlich demonstrieren wir die Wirksamkeit von Ditto in einer realen, großskaligen EM-Aufgabe. Bei der Übereinstimmung zweier Unternehmensdatensätze mit jeweils 789.000 und 412.000 Datensätzen erzielt Ditto einen hohen F1-Score von 96,5 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp