Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache
{Sowmya Vajjala Sagnik Banerjee}

Abstract
Wir berichten über unsere Experimente mit N-Gramm- und Embedding-basierten Merkmalsrepräsentationen für die Identifikation der Muttersprache (Native Language Identification, NLI) im Rahmen der NLI Shared Task 2017 (Teamname: NLI-ISU). Unser bester Systemaufbau für schriftliche Essays erzielte auf dem Testset eine makro-F1-Score von 0,8264 und basierte auf Wort-Uni-, Bi- und Trigramm-Merkmalsrepräsentationen. Für diese Aufgabe untersuchten wir N-Gramme, die sowohl Wort-, Zeichen-, POS- als auch gemischte Wort-POS-Vertretungen abdeckten. Bei den Embedding-basierten Merkmalsrepräsentationen setzten wir sowohl Wort- als auch Dokument-Embeddings ein. Im Vergleich zu den N-Gramm-Modellen zeigten alle Embedding-basierten Ansätze eine relativ schlechtere Leistung, was möglicherweise darauf zurückzuführen ist, dass Embeddings semantische Ähnlichkeiten erfassen, während sprachliche Unterschiede zwischen Muttersprachen (L1) eher stilistischer Natur sind.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| native-language-identification-on-italki-nli | NLI-ISU | Average F1: 0.5035 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.