vor 2 Monaten

Single- und Multi-Source Cross-Lingual NER durch Lehrer-Schüler-Lernen auf nicht gekennzeichneten Daten in der ZielSprache

Qianhui Wu; Zijia Lin; Börje F. Karlsson; Jian-Guang Lou; Biqing Huang

Abstract

Um das Problem der Named Entity Recognition (NER) in Sprachen mit wenig oder keiner etikettierten Daten besser anzugehen, muss die cross-linguale NER Wissen aus Quellsprachen mit reichhaltigen etikettierten Daten effektiv nutzen. Frühere Arbeiten im Bereich der cross-lingualen NER basieren größtenteils auf Label-Projektion mit paarweisen Texten oder direkter Modellübertragung. Allerdings sind solche Methoden entweder nicht anwendbar, wenn etikettierte Daten in den Quellsprachen nicht verfügbar sind, oder sie nutzen die Informationen in den unetikettierten Daten der Zielsprache nicht aus. In dieser Arbeit schlagen wir eine Lehrer-Schüler-Lernmethode vor, um diese Einschränkungen zu überwinden. Dabei werden NER-Modelle in den Quellsprachen als Lehrer verwendet, um ein Schülermodell auf unetikettierten Daten der Zielsprache zu trainieren. Die vorgeschlagene Methode ist sowohl für die single-source als auch für die multi-source cross-linguale NER geeignet. Für letztere schlagen wir außerdem eine Ähnlichkeitsmessmethode vor, um die Überwachung durch verschiedene Lehrermodelle besser zu gewichten. Ausführliche Experimente für 3 Zielsprachen auf Benchmark-Datensätzen zeigen eindrucksvoll, dass unsere Methode bestehende state-of-the-art-Methoden sowohl bei single-source als auch bei multi-source cross-lingualer NER übertrifft.