Ein verbesserter Baseline für die relationsextraktion auf Satzebene

Die extraktion von Beziehungen auf Satzebene (Sentence-level Relation Extraction, RE) zielt darauf ab, die Beziehung zwischen zwei Entitäten innerhalb eines Satzes zu identifizieren. Zahlreiche Bemühungen wurden diesem Problem gewidmet, wobei die derzeit besten Ansätze dennoch weit von Perfektion entfernt sind. In diesem Artikel untersuchen wir zwei Probleme, die die Leistung bestehender RE-Modelle beeinträchtigen: die Darstellung von Entitäten sowie die Qualität von verrauschten oder ungenau definierten Labels. Unser verbessertes RE-Baseline, das typisierte Marker zur Entitätsdarstellung nutzt, erreicht auf dem TACRED-Datensatz eine F1-Score von 74,6 % und übertrifft damit deutlich vorherige SOTA-Methoden. Darüber hinaus erzielt das vorgestellte neue Baseline-Modell auf dem verfeinerten Re-TACRED-Datensatz eine F1-Score von 91,1 %, was zeigt, dass vortrainierte Sprachmodelle (Pretrained Language Models, PLMs) auf dieser Aufgabe eine hervorragende Leistung erzielen können. Wir stellen unseren Code der Forschungsgemeinschaft zur Verfügung, um zukünftige Forschungsarbeiten zu unterstützen.