HyperAIHyperAI
vor 17 Tagen

Hierarchische Meta-Embeddings für die Code-Switching-Name-Entitätserkennung

Genta Indra Winata, Zhaojiang Lin, Jamin Shin, Zihan Liu, Pascale Fung
Hierarchische Meta-Embeddings für die Code-Switching-Name-Entitätserkennung
Abstract

In Ländern mit mehreren Hauptsprachen wird das Mischen verschiedener Sprachen innerhalb einer Konversation häufig als Code-Switching bezeichnet. Bisherige Ansätze zur Bewältigung dieser Herausforderung konzentrierten sich hauptsächlich auf wortbasierte Aspekte wie Wort-Embeddings. In vielen Fällen teilen Sprachen jedoch gemeinsame Subwörter, insbesondere für eng verwandte Sprachen, aber auch für scheinbar unverwandte Sprachen. Daher schlagen wir hierarchische Meta-Embeddings (Hierarchical Meta-Embeddings, HME) vor, die lernen, mehrere monolinguale Wort- und Subwort-Embeddings auf hierarchischer Ebene zu kombinieren, um sprachunabhängige lexikalische Repräsentationen zu erzeugen. Bei der Aufgabe der Namensentitäten-Erkennung für Code-Switching-Daten aus Englisch und Spanisch erzielt unser Modell die bisher beste Leistung in mehrsprachigen Szenarien. Zudem zeigen wir, dass unser Modell in cross-lingualen Kontexten nicht nur eng verwandte Sprachen nutzt, sondern auch aus Sprachen mit unterschiedlichen Sprachwurzeln lernt. Schließlich belegen wir, dass die Kombination verschiedener Subeinheiten entscheidend für die Erfassung von Code-Switching-Entitäten ist.