TDEER: Ein effizienter Übersetzungsdecodierungsansatz für die gemeinsame Extraktion von Entitäten und Relationen

Die gemeinsame Extraktion von Entitäten und Relationen aus unstrukturierten Texten zur Bildung von faktischen Tripeln ist eine grundlegende Aufgabe beim Aufbau einer Wissensbasis (Knowledge Base, KB). Eine gängige Methode besteht darin, Tripel durch die Vorhersage von Entitätenpaaren zu decodieren, um die zugehörige Relation zu erhalten. Dennoch bleibt die effiziente Bewältigung dieser Aufgabe herausfordernd, insbesondere im Hinblick auf das Problem überlappender Tripel. Um dieses Problem anzugehen, schlägt dieser Artikel ein neuartiges, effizientes Modell zur Extraktion von Entitäten und Relationen namens TDEER vor, abgeleitet von „Translating Decoding Schema for Joint Extraction of Entities and Relations“. Im Gegensatz zu herkömmlichen Ansätzen betrachtet das vorgeschlagene Übersetzungsdecodierungs-Schema die Relation als eine Übersetzungsoperation vom Subjekt zum Objekt, d.h., TDEER decodiert Tripel als Subjekt + Relation → Objekt. Aufgrund dieses Ansatzes kann TDEER das Problem überlappender Tripel natürlicherweise bewältigen, da das Übersetzungsdecodierungs-Schema alle möglichen Tripel – sowohl überlappende als auch nicht überlappende – erkennen kann. Zur Verbesserung der Robustheit des Modells integrieren wir negative Beispiele, um die Akkumulation von Fehlern über verschiedene Stufen hinweg zu verringern. Umfangreiche Experimente auf öffentlichen Datensätzen zeigen, dass TDEER Ergebnisse erzielt, die mit den aktuellen Stand der Technik (SOTA) konkurrieren. Darüber hinaus zeigt die Analyse der Berechnungskomplexität, dass TDEER effizienter ist als leistungsstarke Baselines. Insbesondere ist das vorgeschlagene TDEER um das Doppelte schneller als die jüngsten SOTA-Modelle. Der Quellcode ist unter https://github.com/4AI/TDEER verfügbar.