HyperAIHyperAI
منذ 11 أيام

نظام متعدد المكونات للتحقيق التلقائي للحروف المدّية في العربية

{Shengwu Xiong, Hamza Abbad}
نظام متعدد المكونات للتحقيق التلقائي للحروف المدّية في العربية
الملخص

في هذه الورقة، نقترح نهجًا لمعالجة مشكلة استعادة الخطوط التشكيلية للعربية تلقائيًا، ويتكون هذا النهج من ثلاث مكونات مترابطة في سلسلة معالجة متتالية: نموذج تعلم عميق يعتمد على شبكة عصبية متعددة الطبقات ذات تكرار (Recurrent Neural Network) تحتوي على طبقات LSTM وطبقات كثيفة (Dense)، ومحصل قواعدي على مستوى الحروف يطبق عمليات حاسمة لمنع بعض الأخطاء، ومحصل إحصائي على مستوى الكلمات يستخدم معلومات السياق ومسافة التحرير لتصحيح بعض المشكلات المتعلقة بالتَّشكيل. يتميّز هذا النهج بكونه جديدًا من حيث دمجه بين أساليب مختلفة من أنواع متعددة، بالإضافة إلى إدخال تصحيحات تعتمد على مفهوم المسافة المُحرَّكة (Edit Distance).استخدمنا مجموعة بيانات عامة كبيرة تحتوي على نصوص عربية مُشكَّلة بشكل خام (Tashkeela) لتدريب واختبار نظامنا، بعد تنظيفها وتوحيدها. وفي مجموعة اختبار معيارية جديدة أُطلقت مؤخرًا، تفوق نظامنا جميع الأنظمة المختبرة، حيث حقق معدل خطأ في التشكيل (DER) بنسبة 3.39% ونسبة خطأ في الكلمات (WER) بنسبة 9.94% عند أخذ جميع الحروف العربية بعين الاعتبار، وحقق معدل خطأ في التشكيل (DER) بنسبة 2.61% ونسبة خطأ في الكلمات (WER) بنسبة 5.83% عند تجاهل تشكيل الحرف الأخير في كل كلمة.

نظام متعدد المكونات للتحقيق التلقائي للحروف المدّية في العربية | أحدث الأوراق البحثية | HyperAI