Cross-Lingual Named Entity Recognition mithilfe eines parallelen Korpus: Ein neuer Ansatz mit XLM-RoBERTa-Ausrichtung

Wir schlagen einen neuen Ansatz für die cross-linguale Namensentitätserkennung (NER) ohne vorherige Kenntnis (zero-shot transfer) unter Verwendung paralleler Korpora vor. Wir haben ein Entitätsausrichtungsmodell auf Basis von XLM-RoBERTa entwickelt, um die in den englischen Teilen der parallelen Daten erkannten Entitäten auf die Sätze der Zielsprache zu projizieren, wobei die Genauigkeit alle bisherigen unüberwachten Modelle übertrifft. Mit dem Ausrichtungsmodell können wir ein pseudobearbeitetes NER-Datenset in der Zielsprache erstellen, um ein aufgabenspezifisches Modell zu trainieren. Im Gegensatz zu Übersetzungsverfahren profitiert dieser Ansatz von der natürlichen Flüssigkeit und den Nuancen im Originalkorpus der Zielsprache. Wir schlagen außerdem eine modifizierte Verlustfunktion vor, die ähnlich wie der Focal Loss funktioniert, aber Gewichte in entgegengesetzter Richtung zuweist, um das Modelltraining bei verrauschten pseudobearbeiteten Datensets weiter zu verbessern. Wir haben diesen vorgeschlagenen Ansatz anhand von vier Zielsprachen auf Benchmark-Datensets evaluiert und vergleichbare F1-Werte gegenüber den neuesten Stand-of-the-Art-Modellen erzielt. Zudem führen wir eine zusätzliche Diskussion über den Einfluss der Größe und des Domains paralleler Korpora auf die endgültige Transferleistung durch.