Mehrkomponentensystem für die automatische diakritische Markierung des Arabischen

In diesem Paper stellen wir einen Ansatz zur automatischen Wiederherstellung von arabischen Diakritika vor, der aus drei Komponenten besteht, die in einer Pipeline angeordnet sind: einem tiefen Lernmodell, das aus einem mehrschichtigen rekurrenten neuronalen Netzwerk mit LSTM- und Dense-Schichten besteht; einem zeichenbasierten, regelbasierten Korrektor, der deterministische Operationen anwendet, um bestimmte Fehler zu vermeiden; sowie einem wortbasierten statistischen Korrektor, der Kontextinformationen und Abstandsinformationen nutzt, um bestimmte Diakritikprobleme zu beheben. Der Ansatz ist neuartig, da er Methoden unterschiedlicher Art kombiniert und Korrekturen basierend auf der Edit-Distanz einbezieht.Zur Schulung und Evaluation unseres Systems haben wir eine große öffentliche Datensammlung mit rohen, diakritisierten arabischen Texten (Tashkeela) verwendet, nachdem wir diese vorher bereinigt und normalisiert hatten. Auf einem kürzlich veröffentlichten Benchmark-Testset übertraf unser System alle verglichenen Systeme und erreichte eine Diakritik-Fehlerquote (DER) von 3,39 % und eine Wortfehlerquote (WER) von 9,94 %, wenn alle arabischen Buchstaben berücksichtigt wurden. Bei Vernachlässigung der Diakritik des letzten Buchstabens jedes Wortes erzielte das System eine DER von 2,61 % und eine WER von 5,83 %.