التنقيح العصبي للنص العربي: نتائج حالية متطورة ونهج جديد للترجمة الآلية

في هذا العمل، نقدم عدة نماذج للتعلم العميق لتصحيح الحركات في النص العربي تلقائيًا. تم بناء نماذجنا باستخدام طريقتين رئيسيتين، وهما الشبكة العصبية التغذية الراجعة (Feed-Forward Neural Network - FFNN) والشبكة العصبية المتكررة (Recurrent Neural Network - RNN)، مع العديد من التحسينات مثل الترميز الساخن المائة (100-hot encoding)، والتمثيلات (embeddings)، وحقل عشوائي مشروط (Conditional Random Field - CRF)، وتدرج المجموعات المُعَدَّل (Block-Normalized Gradient - BNG). تم اختبار النماذج على مجموعة بيانات مرجعية مجانية هي الوحيدة المتاحة، وأظهرت النتائج أن نماذجنا إما أفضل أو متساوية مع النماذج الأخرى التي تتطلب خطوات ما بعد المعالجة تعتمد على اللغة، بخلاف نموذجنا. بالإضافة إلى ذلك، أظهرنا أن الحركات في العربية يمكن استخدامها لتعزيز نماذج مهام معالجة اللغة الطبيعية مثل الترجمة الآلية (Machine Translation - MT) من خلال اقتراح طريقة الترجمة عبر تصحيح الحركات (Translation over Diacritization - ToD).