Entitätsprojektion durch maschinelle Übersetzung für cross-linguale NER

Obwohl über 100 Sprachen von leistungsfähigen fertigen Maschinelle Übersetzungssystemen unterstützt werden, verfügen nur einige davon über große annotierte Korpora für die Erkennung benannter Entitäten. Angeregt durch diese Tatsache nutzen wir Maschinelle Übersetzung, um Annotation-Projektionsansätze zur cross-lingualen Erkennung benannter Entitäten zu verbessern. Wir schlagen ein System vor, das die bisherigen Methoden der Entitätsprojektion durch folgende Maßnahmen übertrifft: (a) zweimalige Nutzung von Maschinellen Übersetzungssystemen: erstens zur Übersetzung von Sätzen und anschließend zur Übersetzung von Entitäten; (b) Abgleich von Entitäten auf der Grundlage orthografischer und phonetischer Ähnlichkeiten; und (c) Identifikation von Übereinstimmungen basierend auf verteilungsstatistischen Daten, die aus dem Datensatz abgeleitet wurden. Unser Ansatz verbessert die aktuellen Stand-of-the-Art-Methoden für die cross-linguale Erkennung benannter Entitäten in 5 verschiedenen Sprachen im Durchschnitt um 4,1 Punkte. Darüber hinaus erreicht unsere Methode Stand-of-the-Art-F_1-Werte für Armenisch, wobei sie sogar ein monolinguales Modell übertreffen kann, das auf armenischen Quelldaten trainiert wurde.