Neuüberprüfung der negativen Daten der weitgehend überwachten Relationsextraktion

Distant supervision generiert automatisch eine große Anzahl an Trainingsbeispielen für die Relationsextraktion. Allerdings birgt diese Methode zwei wesentliche Probleme: verrauschte Labels und unbalancierte Trainingsdaten. Bisherige Ansätze konzentrieren sich stärker auf die Reduktion falsch positiver Beziehungen (False Positives), während die fehlenden Beziehungen, die auf die Unvollständigkeit der Wissensbasis zurückzuführen sind (False Negatives), kaum untersucht wurden. Zudem überwiegt die Anzahl negativer Labels in den bisherigen Formulierungen deutlich die positiven. In dieser Arbeit führen wir zunächst eine umfassende Analyse der oben genannten Herausforderungen aufgrund von negativen Daten durch. Anschließend formulieren wir das Problem der Relationsextraktion als ein Positive-Unlabeled-Learning-Problem, um das Problem der falsch negativen Beziehungen zu mildern. Drittens schlagen wir einen Pipeline-Ansatz vor, der als \textsc{ReRe} bezeichnet wird und zunächst Beziehungen auf Satzebene erkennt und anschließend Subjekt und Objekt extrahiert, um eine sample-effiziente Lernung zu ermöglichen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode bestehende Ansätze konsistent übertrifft und auch bei der Verwendung einer großen Menge an falsch positiven Beispielen hervorragende Leistung erzielt.