HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

نظام متعدد المكونات للتحقيق التلقائي للحروف المدّية في العربية

{Shengwu Xiong Hamza Abbad}

نظام متعدد المكونات للتحقيق التلقائي للحروف المدّية في العربية

الملخص

في هذه الورقة، نقترح نهجًا لمعالجة مشكلة استعادة الخطوط التشكيلية للعربية تلقائيًا، ويتكون هذا النهج من ثلاث مكونات مترابطة في سلسلة معالجة متتالية: نموذج تعلم عميق يعتمد على شبكة عصبية متعددة الطبقات ذات تكرار (Recurrent Neural Network) تحتوي على طبقات LSTM وطبقات كثيفة (Dense)، ومحصل قواعدي على مستوى الحروف يطبق عمليات حاسمة لمنع بعض الأخطاء، ومحصل إحصائي على مستوى الكلمات يستخدم معلومات السياق ومسافة التحرير لتصحيح بعض المشكلات المتعلقة بالتَّشكيل. يتميّز هذا النهج بكونه جديدًا من حيث دمجه بين أساليب مختلفة من أنواع متعددة، بالإضافة إلى إدخال تصحيحات تعتمد على مفهوم المسافة المُحرَّكة (Edit Distance).استخدمنا مجموعة بيانات عامة كبيرة تحتوي على نصوص عربية مُشكَّلة بشكل خام (Tashkeela) لتدريب واختبار نظامنا، بعد تنظيفها وتوحيدها. وفي مجموعة اختبار معيارية جديدة أُطلقت مؤخرًا، تفوق نظامنا جميع الأنظمة المختبرة، حيث حقق معدل خطأ في التشكيل (DER) بنسبة 3.39% ونسبة خطأ في الكلمات (WER) بنسبة 9.94% عند أخذ جميع الحروف العربية بعين الاعتبار، وحقق معدل خطأ في التشكيل (DER) بنسبة 2.61% ونسبة خطأ في الكلمات (WER) بنسبة 5.83% عند تجاهل تشكيل الحرف الأخير في كل كلمة.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
arabic-text-diacritization-on-tashkeela-1MC
Diacritic Error Rate: 0.0339
Word Error Rate (WER): 0.0994

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نظام متعدد المكونات للتحقيق التلقائي للحروف المدّية في العربية | الأوراق البحثية | HyperAI