HyperAIHyperAI
vor 2 Monaten

UniTrans: Einheitliches Modelltransfer und Datentransfer für die cross-linguale Namenerkennung mit unlabeleden Daten

Qianhui Wu; Zijia Lin; Börje F. Karlsson; Biqing Huang; Jian-Guang Lou
UniTrans: Einheitliches Modelltransfer und Datentransfer für die cross-linguale Namenerkennung mit unlabeleden Daten
Abstract

Frühere Arbeiten im Bereich der cross-lingualen Named Entity Recognition (NER) mit wenig oder keiner gekennzeichneten Daten lassen sich in zwei Hauptkategorien einteilen: Methoden basierend auf Modelltransfer und Methoden basierend auf Datentransfer. In dieser Arbeit zeigen wir, dass beide Methodentypen sich ergänzen können. Der Modelltransfer kann Kontextinformationen durch sprachunabhängige Merkmale nutzen, sieht aber keine taskspezifischen Informationen in der Zielsprache. Der Datentransfer generiert hingegen in der Regel pseudogekennzeichnete Trainingsdaten für die Zielsprache durch Übersetzung, wobei seine Nutzung von Kontextinformationen durch ungenaue Übersetzungen geschwächt wird. Darüber hinaus nutzen frühere Arbeiten selten unlabeled Daten in der Zielsprache, die problemlos gesammelt werden können und potentiell wertvolle Informationen für verbesserte Ergebnisse enthalten. Um beide Probleme zu lösen, schlagen wir einen neuen Ansatz vor, den wir UniTrans nennen, um sowohl Modell- als auch Datentransfer für die cross-linguale NER zu vereinen und ferner die verfügbaren Informationen aus unlabeled Zielsprachendaten durch erweiterte Wissensverteilung (knowledge distillation) zu nutzen. Wir evaluieren unser vorgeschlagenes UniTrans anhand von vier Zielsprachen auf Benchmark-Datensätzen. Unsere experimentellen Ergebnisse zeigen, dass es erheblich besser abschneidet als die bisher besten existierenden Methoden.

UniTrans: Einheitliches Modelltransfer und Datentransfer für die cross-linguale Namenerkennung mit unlabeleden Daten | Neueste Forschungsarbeiten | HyperAI