Von Satzbeutel zu Dokument: Distanzüberwachte Relationsextraktion durch maschinelle Textverständnis

Distant Supervision (DS) ist ein vielversprechender Ansatz für die Relationsextraktion, der jedoch oft unter dem Problem verrauschter Labels leidet. Traditionelle DS-Methoden stellen in der Regel ein Entitätenpaar als eine Sätze-Tasche dar und entrauschen die Labels mit Multi-Instanz-Lernverfahren. Das taschenbasierte Paradigma kann jedoch weder die intersatzliche noch die entitätsbezogene Beweise für die Relationsextraktion nutzen, und ihre Entrauschungsalgorithmen sind oft spezialisiert und kompliziert. In dieser Arbeit schlagen wir ein neues DS-Paradigma vor – das dokumentbasierte Distant Supervision, welches die Relationsextraktion als eine dokumentbasierte Maschinelles Leseverständnis (MRC) Aufgabe modelliert. Durch Neuorganisation aller Sätze über eine Entität zu einem Dokument und Extraktion von Relationen mittels Abfrage des Dokuments mit relationsspezifischen Fragen kann das dokumentbasierte DS-Paradigma gleichzeitig alle satzbezogenen, intersatzlichen und entitätsbezogenen Beweise kodieren und nutzen. Des Weiteren entwickeln wir eine neue Verlustfunktion – DSLoss (Distant Supervision Loss), welche effektiv MRC-Modelle nur mit $\langle$Dokument, Frage, Antwort$\rangle$-Tupeln trainieren kann, sodass das Problem der verrauschten Labels inhärent gelöst wird. Experimente zeigen, dass unsere Methode neue Standarts in der DS-Leistung erreicht.