Command Palette
Search for a command to run...
Deklination arabischer Texte mit tiefen neuronalen Netzen
Deklination arabischer Texte mit tiefen neuronalen Netzen
Ali Fadel Ibraaheem Tuffaha Bara’ Al-Jawarneh Mahmoud Al-Ayyoub
Zusammenfassung
Die Versalzierung arabischer Texte ist ein gleichzeitig interessantes und herausforderndes Problem mit verschiedenen Anwendungen, die von der Sprachsynthese bis hin zur Unterstützung von Schülern beim Lernen der arabischen Sprache reichen. Wie bei vielen anderen Aufgaben oder Problemen in der arabischen Sprachverarbeitung hemmen die geringen Bemühungen, die in dieses Problem investiert wurden, und der Mangel an verfügbaren (Open-Source-) Ressourcen den Fortschritt bei dessen Lösung. Diese Arbeit bietet eine kritische Übersicht über die derzeit existierenden Systeme, Maßnahmen und Ressourcen für die Versalzierung arabischer Texte. Darüber hinaus stellt sie einen dringend benötigten, für alle freien Datensatz bereit, der leicht verwendet werden kann, um jede Arbeit zur Versalzierung arabischer Texte zu bewerten. Aus dem Tashkeela-Korpus extrahiert, besteht der Datensatz aus 55.000 Zeilen mit etwa 2,3 Millionen Wörtern. Nach der Erstellung des Datensatzes wurden bestehende Werkzeuge und Systeme darauf getestet. Die Ergebnisse der Experimente zeigen, dass das neuronale Shakkala-System traditionellen regelbasierten Ansätzen und anderen proprietären Werkzeugen deutlich überlegen ist und eine Diakritikfehlerquote (Diacritic Error Rate, DER) von 2,88 % aufweist, im Vergleich zu 13,78 %, was die beste DER für den nicht-neuronalen Ansatz (erzielt durch das Mishkal-Werkzeug) darstellt.