HyperAIHyperAI
vor 2 Monaten

CATT: Zeichenbasierte arabisch-taschkiel-Transformer

Faris Alasmary; Orjuwan Zaafarani; Ahmad Ghannam
CATT: Zeichenbasierte arabisch-taschkiel-Transformer
Abstract

Tashkeel, auch bekannt als arabische Textdiakritik (ATD), verbessert die Verständlichkeit arabischer Texte erheblich, indem es Unsicherheiten beseitigt und das Risiko von Fehlinterpretationen, die durch dessen Fehlen verursacht werden, minimiert. Es spielt eine entscheidende Rolle bei der Verbesserung der arabischen Textverarbeitung, insbesondere in Anwendungen wie Text-zu-Sprache-Umwandlung und maschinelle Übersetzung. Dieser Artikel stellt einen neuen Ansatz zur Ausbildung von ATD-Modellen vor. Zunächst feinjustierten wir zwei Transformer-Modelle, ein reiner Encoder und ein Encoder-Decoder, die von einem vortrainierten zeichenbasierten BERT initialisiert wurden. Anschließend wendeten wir den Noisy-Student-Ansatz an, um die Leistung des besten Modells zu steigern. Wir bewerteten unsere Modelle neben 11 kommerziellen und quelloffenen Modellen anhand zweier manuell annotierter Benchmark-Datensätze: WikiNews und unser CATT-Datensatz. Unsere Ergebnisse zeigen, dass unser führendes Modell alle evaluierten Modelle in Bezug auf die relativen Diakritikfehlerquotienten (DERs) um 30,83 % auf WikiNews und 35,21 % auf CATT übertrifft und damit den aktuellen Stand der Technik in ATD erreicht. Darüber hinaus konnten wir nachweisen, dass unser Modell den GPT-4-turbo auf dem CATT-Datensatz um einen relativen DER von 9,36 % übertrifft. Wir stellen unsere CATT-Modelle und den Benchmark-Datensatz für die Forschergemeinschaft unter einer Open-Source-Lizenz zur Verfügung\footnote{https://github.com/abjadai/catt}.

CATT: Zeichenbasierte arabisch-taschkiel-Transformer | Neueste Forschungsarbeiten | HyperAI