CATT: محول التشكيل العربي القائم على الحروف

التشكيل، أو تشكيل النص العربي (ATD)، يعزز بشكل كبير فهم النص العربي من خلال إزالة الغموض وتقليل خطر سوء الفهم الناجم عن غيابه. يلعب دورًا حاسمًا في تحسين معالجة النصوص العربية، خاصة في التطبيقات مثل تحويل النص إلى كلام وترجمة الآلة. يقدم هذا البحث نهجًا جديدًا لتدريب نماذج ATD. أولاً، قمنا بضبط (fine-tuning) متحولين (transformers) اثنين، أحدهما متحول مشفر فقط (encoder-only) والآخر متحول مشفر-مفكك (encoder-decoder)، تم تهيئتهما من نموذج BERT المُدرب مسبقًا على مستوى الحروف. ثانياً، طبقنا نهج Noisy-Student لتعزيز أداء أفضل نموذج لدينا. قمنا بتقييم نماذجنا إلى جانب 11 نموذجًا تجاريًا ومفتوح المصدر باستخدام مجموعتين مرجعيتين محكمتين يدويًا: WikiNews ومجموعة بيانات CATT الخاصة بنا. أظهرت نتائجنا أن أفضل نموذج لدينا يتفوق على جميع النماذج التي تم تقييمها بمعدلات خطأ التشكيل النسبية (DERs) تبلغ 30.83٪ و35.21٪ على WikiNews وCATT على التوالي، مما يجعله الأفضل في مجال ATD. بالإضافة إلى ذلك، أظهرنا أن نموذجنا يتفوق على GPT-4-turbo في مجموعة بيانات CATT بمعدل خطأ التشكيل النسبي 9.36٪. سنقوم بإتاحة مصدر نماذج CATT ومجموعة البيانات المرجعية للمجتمع العلمي\footnote{https://github.com/abjadai/catt}.