HyperAIHyperAI
vor 2 Monaten

Tiefe Diakritisierung: Effiziente hierarchische Rekurrenz zur verbesserten arabischen Diakritisierung

Badr AlKhamissi; Muhammad N. ElNokrashy; Mohamed Gabr
Tiefe Diakritisierung: Effiziente hierarchische Rekurrenz zur verbesserten arabischen Diakritisierung
Abstract

Wir schlagen eine neuartige Architektur zur Klassifizierung von Zeichenfolgen vor, die auf dem Tashkeela-Arabischen Diakritik-Benchmark erstklassige Ergebnisse erzielt. Der Kern dieser Architektur besteht in einer zweistufigen Rekurrenz-Hierarchie, die getrennt auf Wort- und Zeichenebene operiert – was schnelleres Training und Inferenz im Vergleich zu traditionellen Modellen ermöglicht. Ein cross-level Attention-Modul verbindet diese beiden Ebenen weiter und bietet Möglichkeiten für die Interpretierbarkeit des Netzes. Das Aufgabenmodul ist ein Softmax-Klassifikator, der gültige Kombinationen von Diakritika auflistet. Diese Architektur kann durch einen rekurrenten Decoder erweitert werden, der optional Vorwissen aus teilweise diakritisierten Texten akzeptiert, was die Ergebnisse verbessert. Zusätzlich verwenden wir Techniken wie Satzdropout und Mehrheitsvoting, um das endgültige Ergebnis weiter zu optimieren. Unser bestes Modell erreicht einen WER von 5,34 % und übertreffen das bisherige Erstklasse-Level um 30,56 % relativen Fehlerreduktion.

Tiefe Diakritisierung: Effiziente hierarchische Rekurrenz zur verbesserten arabischen Diakritisierung | Neueste Forschungsarbeiten | HyperAI