Effektive Modellierung der Encoder-Decoder-Architektur für die gemeinsame Entität- und Relationsextraktion

Ein Relationstupel besteht aus zwei Entitäten und der zwischen ihnen bestehenden Beziehung, und solche Tupel finden sich häufig in unstrukturiertem Text. In einem Text können mehrere Relationstupel vorhanden sein, die eine oder beide Entitäten miteinander teilen können. Die Extraktion solcher Relationstupel aus einem Satz ist eine anspruchsvolle Aufgabe, wobei die gemeinsame Nutzung oder Überlappung von Entitäten zwischen den Tupeln die Herausforderung weiter erhöht. Die meisten vorherigen Ansätze verfolgten einen Pipeline-Ansatz, bei dem zunächst die Entitäten identifiziert wurden und anschließend die Beziehungen zwischen ihnen ermittelt wurden. Dadurch blieb jedoch die Interaktion zwischen den Relationstupeln innerhalb eines Satzes unberücksichtigt. In diesem Paper stellen wir zwei Ansätze vor, die eine Encoder-Decoder-Architektur zur gemeinsamen Extraktion von Entitäten und Relationen nutzen. Im ersten Ansatz schlagen wir eine Darstellungsschemata für Relationstupel vor, das es dem Decoder ermöglicht, wie bei maschinellen Übersetzungsmodellen jeweils ein Wort pro Schritt zu generieren, und gleichzeitig alle im Satz enthaltenen Tupel mit vollständigen Entitätsnamen unterschiedlicher Länge und überlappenden Entitäten findet. Im zweiten Ansatz entwickeln wir einen auf Pointer-Netzwerken basierenden Dekodierungsansatz, bei dem in jeder Zeitschritt ein vollständiger Tupel generiert wird. Experimente am öffentlich verfügbaren New York Times-Korpus zeigen, dass unsere vorgeschlagenen Ansätze die bisherigen Methoden übertrifft und signifikant höhere F1-Scores erzielt.