HyperAIHyperAI

Command Palette

Search for a command to run...

Effektive Deep Learning-Modelle für die automatische Diakritisierung von arabischen Texten

Ali Mustafa Qamar Mokthar Ali Hasan Madhfar

Zusammenfassung

Beim Aufbau eines Text-zu-Sprache-Systems für die arabische Sprache stellten wir fest, dass das System Sprachausgaben mit zahlreichen Aussprachefehlern generierte. Der primäre Grund hierfür ist das Fehlen von Tashkīl (Diatiker) in der modernen Standardsprache des Arabischen. Diese Diakritika sind kleine Striche, die über oder unter jedem Buchstaben angebracht sind und Aussprache- sowie grammatische Informationen liefern. Wir stellen drei tiefen Lernmodelle vor, die darauf abzielen, fehlende Diakritika im arabischen Text wiederherzustellen, basierend auf unserer Arbeit an einem tiefen Lern-Text-zu-Sprache-Synthesesystem. Das erste Modell dient als Baseline-Modell, um zu testen, wie ein einfaches tiefes Lernmodell auf den Korpora abschneidet. Das zweite Modell basiert auf einer Encoder-Decoder-Architektur, die unserer Text-zu-Sprache-Synthesemodell ähnelt, jedoch zahlreiche Anpassungen erfährt, um dem spezifischen Problem besser gerecht zu werden. Das dritte Modell nutzt ausschließlich den Encoder-Teil des Text-zu-Sprache-Modells und erzielt state-of-the-art-Ergebnisse sowohl im Wortfehlerquote- als auch im Diakritikfehlerquote-Maß. Diese Modelle werden einer Vielzahl von Anwendungen im Bereich der natürlichen Sprachverarbeitung zugutekommen, darunter Text-zu-Sprache-Synthese, Part-of-Speech-Tagging und maschinelles Übersetzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp