HyperAIHyperAI
vor 11 Tagen

Verwendung von Wikipedia-Edit-Protokollen für grammatische Fehlerkorrektur in ressourcenarmen Sprachen

{Adriane Boyd}
Verwendung von Wikipedia-Edit-Protokollen für grammatische Fehlerkorrektur in ressourcenarmen Sprachen
Abstract

Wir entwickeln ein grammatisches Fehlerkorrektursystem (GEC) für Deutsch, das auf einem kleinen Gold-GEC-Korpus basiert, das durch Korrekturen ergänzt wurde, die aus der Versionsgeschichte von Wikipedia extrahiert wurden. Wir erweitern das automatische Fehlerannotierungswerkzeug ERRANT (Bryant et al., 2017) für die deutsche Sprache und nutzen es, um sowohl die Gold-GEC-Korrekturen als auch Wikipedia-Änderungen (Grundkiewicz und Junczys-Dowmunt, 2014) zu analysieren, um als zusätzliche Trainingsdaten solche Wikipedia-Änderungen auszuwählen, die grammatikalische Korrekturen enthalten, die denen im Gold-Korpus ähneln. Unter Verwendung eines mehrschichtigen konvolutionellen Encoder-Decoder-Neural-Network-Ansatzes für GEC (Chollampatt und Ng, 2018) evaluieren wir den Beitrag der Wikipedia-Änderungen und stellen fest, dass sorgfältig ausgewählte Wikipedia-Änderungen die Leistung um über 5 % steigern.

Verwendung von Wikipedia-Edit-Protokollen für grammatische Fehlerkorrektur in ressourcenarmen Sprachen | Neueste Forschungsarbeiten | HyperAI