نماذج التعلم العميق الفعّالة للتحقيق التلقائي للنص العربي
أثناء بناء نظام تحويل النص إلى كلام للغة العربية، لاحظنا أن النظام يُولِّد نصوصًا مُصَوَّتة تحتوي على العديد من الأخطاء في النطق. ويعود السبب الرئيسي لهذه الأخطاء إلى غياب التشكيل في الكتابة العربية القياسية الحديثة. ويُعد التشكيل عبارة عن خطوط صغيرة تظهر فوق أو تحت كل حرف لتوفير معلومات حول النطق والتركيب النحوي. نقترح ثلاثة نماذج تعتمد على التعلم العميق لاستعادة التشكيل في النص العربي، بالاستناد إلى عملنا في بناء نظام تحويل النص إلى كلام باستخدام التعلم العميق. النموذج الأول هو نموذج أساسي يُستخدم لاختبار أداء نموذج تعلم عميق بسيط على مجموعات البيانات. أما النموذج الثاني، فيعتمد على بنية مشفر-فكّار (encoder-decoder)، والتي تشبه نموذج تحويل النص إلى كلام لدينا مع إجراء العديد من التعديلات لتتناسب مع هذه المشكلة. والنموذج الثالث يستند إلى جزء المشفر (encoder) من نموذج تحويل النص إلى كلام، ويحقق أداءً متميزًا على مستوى الأداء الحادث في كلا المعيارين: معدل خطأ الكلمات (Word Error Rate) ومعدل خطأ التشكيل (Diacritic Error Rate). وستستفيد هذه النماذج من مجموعة واسعة من تطبيقات معالجة اللغة الطبيعية، مثل تحويل النص إلى كلام، وتسمية الأجزاء النحوية (Part-of-Speech Tagging)، والترجمة الآلية.