HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Effektive Deep Learning-Modelle für die automatische Diakritisierung von arabischen Texten

{Ali Mustafa Qamar Mokthar Ali Hasan Madhfar}

Abstract

Beim Aufbau eines Text-zu-Sprache-Systems für die arabische Sprache stellten wir fest, dass das System Sprachausgaben mit zahlreichen Aussprachefehlern generierte. Der primäre Grund hierfür ist das Fehlen von Tashkīl (Diatiker) in der modernen Standardsprache des Arabischen. Diese Diakritika sind kleine Striche, die über oder unter jedem Buchstaben angebracht sind und Aussprache- sowie grammatische Informationen liefern. Wir stellen drei tiefen Lernmodelle vor, die darauf abzielen, fehlende Diakritika im arabischen Text wiederherzustellen, basierend auf unserer Arbeit an einem tiefen Lern-Text-zu-Sprache-Synthesesystem. Das erste Modell dient als Baseline-Modell, um zu testen, wie ein einfaches tiefes Lernmodell auf den Korpora abschneidet. Das zweite Modell basiert auf einer Encoder-Decoder-Architektur, die unserer Text-zu-Sprache-Synthesemodell ähnelt, jedoch zahlreiche Anpassungen erfährt, um dem spezifischen Problem besser gerecht zu werden. Das dritte Modell nutzt ausschließlich den Encoder-Teil des Text-zu-Sprache-Modells und erzielt state-of-the-art-Ergebnisse sowohl im Wortfehlerquote- als auch im Diakritikfehlerquote-Maß. Diese Modelle werden einer Vielzahl von Anwendungen im Bereich der natürlichen Sprachverarbeitung zugutekommen, darunter Text-zu-Sprache-Synthese, Part-of-Speech-Tagging und maschinelles Übersetzen.

Benchmarks

BenchmarkMethodikMetriken
arabic-text-diacritization-on-tashkeela-1CBHG model
Diacritic Error Rate: 0.0113
Word Error Rate (WER): 0.0443

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effektive Deep Learning-Modelle für die automatische Diakritisierung von arabischen Texten | Forschungsarbeiten | HyperAI