HyperAIHyperAI

Command Palette

Search for a command to run...

CATT: Zeichenbasierte arabisch-taschkiel-Transformer

Abdulaziz Aljafri Ahmad Aljumaili Mohamed Al-Rajhi

Zusammenfassung

Tashkeel, auch bekannt als arabische Textdiakritik (ATD), verbessert die Verständlichkeit arabischer Texte erheblich, indem es Unsicherheiten beseitigt und das Risiko von Fehlinterpretationen, die durch dessen Fehlen verursacht werden, minimiert. Es spielt eine entscheidende Rolle bei der Verbesserung der arabischen Textverarbeitung, insbesondere in Anwendungen wie Text-zu-Sprache-Umwandlung und maschinelle Übersetzung. Dieser Artikel stellt einen neuen Ansatz zur Ausbildung von ATD-Modellen vor. Zunächst feinjustierten wir zwei Transformer-Modelle, ein reiner Encoder und ein Encoder-Decoder, die von einem vortrainierten zeichenbasierten BERT initialisiert wurden. Anschließend wendeten wir den Noisy-Student-Ansatz an, um die Leistung des besten Modells zu steigern. Wir bewerteten unsere Modelle neben 11 kommerziellen und quelloffenen Modellen anhand zweier manuell annotierter Benchmark-Datensätze: WikiNews und unser CATT-Datensatz. Unsere Ergebnisse zeigen, dass unser führendes Modell alle evaluierten Modelle in Bezug auf die relativen Diakritikfehlerquotienten (DERs) um 30,83 % auf WikiNews und 35,21 % auf CATT übertrifft und damit den aktuellen Stand der Technik in ATD erreicht. Darüber hinaus konnten wir nachweisen, dass unser Modell den GPT-4-turbo auf dem CATT-Datensatz um einen relativen DER von 9,36 % übertrifft. Wir stellen unsere CATT-Modelle und den Benchmark-Datensatz für die Forschergemeinschaft unter einer Open-Source-Lizenz zur Verfügung\footnote{https://github.com/abjadai/catt}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp