HyperAIHyperAI
vor 11 Tagen

Effektive Deep Learning-Modelle für die automatische Diakritisierung von arabischen Texten

{Ali Mustafa Qamar, Mokthar Ali Hasan Madhfar}
Abstract

Beim Aufbau eines Text-zu-Sprache-Systems für die arabische Sprache stellten wir fest, dass das System Sprachausgaben mit zahlreichen Aussprachefehlern generierte. Der primäre Grund hierfür ist das Fehlen von Tashkīl (Diatiker) in der modernen Standardsprache des Arabischen. Diese Diakritika sind kleine Striche, die über oder unter jedem Buchstaben angebracht sind und Aussprache- sowie grammatische Informationen liefern. Wir stellen drei tiefen Lernmodelle vor, die darauf abzielen, fehlende Diakritika im arabischen Text wiederherzustellen, basierend auf unserer Arbeit an einem tiefen Lern-Text-zu-Sprache-Synthesesystem. Das erste Modell dient als Baseline-Modell, um zu testen, wie ein einfaches tiefes Lernmodell auf den Korpora abschneidet. Das zweite Modell basiert auf einer Encoder-Decoder-Architektur, die unserer Text-zu-Sprache-Synthesemodell ähnelt, jedoch zahlreiche Anpassungen erfährt, um dem spezifischen Problem besser gerecht zu werden. Das dritte Modell nutzt ausschließlich den Encoder-Teil des Text-zu-Sprache-Modells und erzielt state-of-the-art-Ergebnisse sowohl im Wortfehlerquote- als auch im Diakritikfehlerquote-Maß. Diese Modelle werden einer Vielzahl von Anwendungen im Bereich der natürlichen Sprachverarbeitung zugutekommen, darunter Text-zu-Sprache-Synthese, Part-of-Speech-Tagging und maschinelles Übersetzen.

Effektive Deep Learning-Modelle für die automatische Diakritisierung von arabischen Texten | Neueste Forschungsarbeiten | HyperAI