HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache

{Sowmya Vajjala Sagnik Banerjee}

Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache

Abstract

Wir berichten über unsere Experimente mit N-Gramm- und Embedding-basierten Merkmalsrepräsentationen für die Identifikation der Muttersprache (Native Language Identification, NLI) im Rahmen der NLI Shared Task 2017 (Teamname: NLI-ISU). Unser bester Systemaufbau für schriftliche Essays erzielte auf dem Testset eine makro-F1-Score von 0,8264 und basierte auf Wort-Uni-, Bi- und Trigramm-Merkmalsrepräsentationen. Für diese Aufgabe untersuchten wir N-Gramme, die sowohl Wort-, Zeichen-, POS- als auch gemischte Wort-POS-Vertretungen abdeckten. Bei den Embedding-basierten Merkmalsrepräsentationen setzten wir sowohl Wort- als auch Dokument-Embeddings ein. Im Vergleich zu den N-Gramm-Modellen zeigten alle Embedding-basierten Ansätze eine relativ schlechtere Leistung, was möglicherweise darauf zurückzuführen ist, dass Embeddings semantische Ähnlichkeiten erfassen, während sprachliche Unterschiede zwischen Muttersprachen (L1) eher stilistischer Natur sind.

Benchmarks

BenchmarkMethodikMetriken
native-language-identification-on-italki-nliNLI-ISU
Average F1: 0.5035

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Eine Studie zu N-gram- und Embedding-Darstellungen für die Identifikation der Muttersprache | Forschungsarbeiten | HyperAI