Neuronale arabische Textdiakritik: Stand der Forschung und ein neuer Ansatz für die maschinelle Übersetzung

In dieser Arbeit stellen wir mehrere Deep-Learning-Modelle zur automatischen Diakritisierung von arabischem Text vor. Unsere Modelle basieren auf zwei Hauptansätzen, nämlich dem Feed-Forward-Neural Network (FFNN) und dem Recurrent Neural Network (RNN), wobei verschiedene Verbesserungen wie 100-hot-Encoding, Embeddings, Conditional Random Field (CRF) und Block-Normalized Gradient (BNG) angewendet werden. Die Modelle wurden anhand des einzigen frei verfügbaren Benchmark-Datensatzes getestet, und die Ergebnisse zeigen, dass unsere Modelle entweder besser oder gleichwertig sind im Vergleich zu anderen Modellen, die sprachabhängige Nachbearbeitungsschritte erfordern, was unser Modell nicht benötigt. Darüber hinaus demonstrieren wir, dass Diakritika im Arabischen verwendet werden können, um die Modelle für NLP-Aufgaben wie maschinelle Übersetzung (MT) zu verbessern, indem wir den Ansatz „Translation over Diacritization“ (ToD) vorschlagen.