Ein neuartiger kaskadenartiger binärer Tagging-Framework für die Extraktion relationaler Tripel

Die Extraktion von relationalen Tripeln aus unstrukturiertem Text ist entscheidend für die Erstellung großskaliger Wissensgraphen. Allerdings lösen bisherige Ansätze das Problem überlagernder Tripel – bei dem mehrere relationale Tripel in derselben Satzzeile dieselben Entitäten teilen – nur unzureichend. In dieser Arbeit präsentieren wir einen neuen Ansatz zur Neubewertung der Aufgabe der relationalen Tripel-Extraktion und schlagen einen innovativen, kaskadenartigen binären Tagging-Framework (CasRel) vor, der auf einer fundierten Problemformulierung basiert. Im Gegensatz zu früheren Ansätzen, die Relationen als diskrete Labels behandeln, modelliert unser neues Framework Relationen als Funktionen, die Subjekte auf Objekte in einem Satz abbilden. Dieser Ansatz verarbeitet das Problem der Überlappung natürlicherweise. Experimente zeigen, dass das CasRel-Framework bereits state-of-the-art-Methoden übertrifft, selbst wenn sein Encoder-Modul einen zufällig initialisierten BERT-Encoder verwendet, was die Stärke des neuen Tagging-Frameworks unterstreicht. Bei Verwendung eines vortrainierten BERT-Encoders erreicht es eine zusätzliche Leistungssteigerung und übertrifft die stärkste Baseline um 17,5 und 30,2 absolute F1-Score-Punkte auf zwei öffentlichen Datensätzen, NYT und WebNLG. Eine detaillierte Analyse verschiedener Szenarien überlagernder Tripel zeigt, dass die Methode in allen diesen Szenarien konsistent bessere Ergebnisse liefert. Der Quellcode und die Daten sind öffentlich zugänglich.