Gemeinsame Entität- und Relationsextraktion aus wissenschaftlichen Dokumenten: Rolle linguistischer Informationen und Entitätstypen

Wissenschaftliche Artikel enthalten verschiedene Arten von fachspezifischen Entitäten sowie Beziehungen zwischen ihnen. Entitäten und ihre Beziehungen fassen wichtige Informationen zum Thema des Dokuments prägnant zusammen und sind daher entscheidend für das Verständnis und die automatisierte Analyse der Dokumente. In diesem Paper zielen wir darauf ab, Entitäten und Beziehungen aus wissenschaftlichen Zusammenfassungen (abstracts) mithilfe eines tiefen neuronalen Modells automatisch zu extrahieren. Gegeben einen Eingabesatz verwenden wir einen vortrainierten Transformer, um kontextuelle Embeddings der Tokens zu erzeugen, die anschließend durch Embeddings ihrer Part-of-Speech (POS)-Tags angereichert werden. Eine Folge angereicherter Tokenrepräsentationen bildet einen Span, und Entitäten sowie Beziehungen werden gemeinsam über Spannweiten gelernt. Die von dem Entitätsklassifikator vorhergesagten Entitätslogits dienen als Merkmale im Beziehungsklassifikator. Das vorgeschlagene Modell übertrifft in der Leistung auf den Datensätzen SciERC und ADE gegenüber bestehenden Benchmarks sowohl bei der Entitäts- als auch bei der Beziehungsextraktion.