Dokumentenweite Relationsextraktion mit strukturverbessertem Transformer-Encoder
Die Dokumentebene-Relationsextraktion zielt darauf ab, relationale Fakten zwischen Entity-Paaren innerhalb eines Dokuments zu identifizieren und hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen. Die meisten bestehenden Ansätze lassen sich hauptsächlich in graphbasierte und Transformer-basierte Methoden unterteilen. Allerdings vernachlässigen bisherige Transformer-basierte Ansätze die strukturelle Information zwischen Entities, während graphbasierte Methoden aufgrund der Trennung von Kodierungs- und Strukturbewertungsphase die effektive Extraktion struktureller Informationen nicht gewährleisten können. In diesem Artikel stellen wir ein effektives, strukturverstärktes Transformer-Encoder-Modell (SETE) vor, das strukturelle Informationen über Entities in den Transformer-Encoder integriert. Zunächst definieren wir einen Erwähnungs-Ebene-Graph basierend auf Erwähnungsabhängigkeiten und transformieren ihn in einen Token-Ebene-Graph. Anschließend entwerfen wir einen Dual-Self-Attention-Mechanismus, der die strukturelle und kontextuelle Information zwischen Entities bereichert und somit die Inferenzkapazität des herkömmlichen Transformer-Encoders erhöht. Experimente an drei öffentlichen Datensätzen zeigen, dass das vorgeschlagene SETE die bisherigen state-of-the-art-Methoden übertrifft, und weitere Analysen belegen die Interpretierbarkeit unseres Modells.