HyperAIHyperAI

Command Palette

Search for a command to run...

الضبط الدقيق للنماذج التعلم ذاتي التدريب لتقدير النطق من البداية إلى النهاية

Hanaa Bayomi Khaled T. Wassif Aly A. Fahmy Ahmed I. Zahran

الملخص

تُستخدم نماذج التقييم التلقائي للنطق بشكل متكرر في تطبيقات تعلم اللغة. تُعتمد منهجيات شائعة لتقييم النطق على النهج القائمة على السمات، مثل منهجية جودة النطق (GOP)، أو نماذج التعرف على الكلام القائمة على التعلم العميق لتقييم الكلام. مع صعود نماذج المحولات (Transformers)، تم استخدام النماذج المُدرَّبة مسبقًا القائمة على التعلم الذاتي المُشَبَّك (SSL) لاستخراج تمثيلات سياقية للكلام، مما أظهر تحسينات في مهام متعددة تالية. في هذه الدراسة، نقترح نموذج التقدير العكسي من الطرف إلى الطرف (E2E-R) لتقييم النطق. يتم تدريب نموذج E2E-R باستخدام عملية تدريب مكونة من خطوتين. في الخطوة الأولى، يتم تحسين النموذج المُدرَّب مسبقًا (SSL) على مهمة تمييز الصوتيات (phoneme recognition) للحصول على تمثيلات أفضل للصوتيات المُنطَقة. وفي الخطوة الثانية، تُستخدم التعلم الناقل (transfer learning) لبناء نموذج لتقييم النطق يستخدم شبكة عصبية شبيهة (Siamese neural network) للمقارنة بين تمثيلات الصوتيات المُنطَقة وتمثيلات الصوتيات القياسية (canonical phonemes)، ومن ثم إنتاج الدرجات النهائية لتقييم النطق. حقق نموذج E2E-R معامل ارتباط بيرسون (PCC) قدره 0.68، وهو قريب جدًا من أفضل النماذج الحالية (مثل نموذج GOPT-PAII)، مع التخلص من الحاجة إلى تدريب إضافي على بيانات كلام أصلي، أو هندسة سمات، أو وحدات خارجية للمحاذاة القسرية (forced alignment). إلى حد معرفتنا، تمثل هذه الدراسة أول استخدام لنموذج مُدرَّب مسبقًا (SSL) في تقييم النطق على مستوى الصوتية بشكل مباشر من موجات الصوت الخام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp