Verbesserung der distanzüberwachten Relationsextraktion durch BERT-basierte Label- und Instanz-Embeddings

Distanzüberwachte Relationsextraktion (RE) ist eine effektive Methode, um RE auf große Korpora zu skalieren, leidet jedoch unter verrauschten Labels. Bestehende Ansätze versuchen, das Rauschen durch Multi-Instanz-Lernen und durch Bereitstellung zusätzlicher Informationen zu reduzieren, erkennen aber hauptsächlich die häufigsten Relationen und vernachlässigen jene im Long Tail. Wir schlagen REDSandT (Relationsextraktion mit Distanzüberwachung und Transformatoren) vor, eine neuartige distanzüberwachte RE-Methode basierend auf Transformatoren, die durch hochinformative Instanz- und Label-Einbettungen für RE ein breiteres Spektrum von Relationen erfassen kann. Dabei nutzen wir BERTs vortrainiertes Modell sowie das Verhältnis zwischen Labels und Entitäten. Wir führen REDSandT an, sich ausschließlich auf relationale Token zu konzentrieren, indem wir BERT an einem strukturierten Eingang feintunen, der den Teilbaum einschließt, der ein Entitätenpaar verbindet, sowie die Typen der Entitäten. Mithilfe der extrahierten informativen Vektoren formen wir Label-Einbettungen, die wir auch als Aufmerksamkeitsmechanismus über die Instanzen verwenden, um das Rauschen weiter zu reduzieren. Schließlich repräsentieren wir Sätze durch die Kombination von Relation- und Instanzeinbettungen. Experimente mit dem NYT-10-Datensatz zeigen, dass REDSandT ein breiteres Spektrum von Relationen mit höherer Zuversicht erfasst und dabei einen Stand-des-Wissens-AUC-Wert von 0,424 erreicht.