HyperAIHyperAI
vor 11 Tagen

Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache

{Sowmya Vajjala, Sagnik Banerjee}
Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache
Abstract

Wir berichten über unsere Experimente mit N-Gramm- und Embedding-basierten Merkmalsrepräsentationen für die Identifikation der Muttersprache (Native Language Identification, NLI) im Rahmen der NLI Shared Task 2017 (Teamname: NLI-ISU). Unser bester Systemaufbau für schriftliche Essays erzielte auf dem Testset eine makro-F1-Score von 0,8264 und basierte auf Wort-Uni-, Bi- und Trigramm-Merkmalsrepräsentationen. Für diese Aufgabe untersuchten wir N-Gramme, die sowohl Wort-, Zeichen-, POS- als auch gemischte Wort-POS-Vertretungen abdeckten. Bei den Embedding-basierten Merkmalsrepräsentationen setzten wir sowohl Wort- als auch Dokument-Embeddings ein. Im Vergleich zu den N-Gramm-Modellen zeigten alle Embedding-basierten Ansätze eine relativ schlechtere Leistung, was möglicherweise darauf zurückzuführen ist, dass Embeddings semantische Ähnlichkeiten erfassen, während sprachliche Unterschiede zwischen Muttersprachen (L1) eher stilistischer Natur sind.

Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache | Neueste Forschungsarbeiten | HyperAI