TPLinker: Einzelstufen-Extraktion von Entitäten und Relationen durch Token-Paar-Verknüpfung

Die Extraktion von Entitäten und Relationen aus unstrukturiertem Text hat in den letzten Jahren zunehmende Aufmerksamkeit erfahren, bleibt jedoch herausfordernd, da die Identifizierung überlappender Relationen mit gemeinsamen Entitäten inhärent schwierig ist. Frühere Arbeiten zeigen, dass ein gemeinsames Lernen zu einer signifikanten Leistungssteigerung führen kann. Allerdings basieren sie meist auf sequenziellen, miteinander verknüpften Schritten und leiden unter dem Problem der Expositionsverzerrung (exposure bias). Während des Trainings werden die Vorhersagen mit den korrekten Eingabedaten durchgeführt, während die Inferenz zur Extraktion von Grund auf erfolgen muss. Dieser Unterschied führt zu einer Akkumulation von Fehlern. Um dieses Problem zu mildern, schlagen wir in diesem Paper ein einstufiges gemeinsames Extraktionsmodell vor, namens TPLinker, das in der Lage ist, überlappende Relationen zu entdecken, die eine oder beide Entitäten gemeinsam nutzen, und gleichzeitig immun gegen die Expositionsverzerrung ist. TPLinker formuliert die gemeinsame Extraktion als ein Problem der Verknüpfung von Token-Paaren und führt eine neuartige Handshake-Tagging-Schemata ein, das die Grenz-Token von Entitätenpaaren jeweils unter jeder Relationart ausrichtet. Experimentelle Ergebnisse zeigen, dass TPLinker bei der Extraktion überlappender und mehrfacher Relationen erheblich besser abschneidet und auf zwei öffentlichen Datensätzen eine state-of-the-art-Leistung erzielt.