الضبط الدقيق للنماذج التعلم ذاتي التدريب لتقدير النطق من البداية إلى النهاية
تُستخدم نماذج التقييم التلقائي للنطق بشكل متكرر في تطبيقات تعلم اللغة. تُعتمد منهجيات شائعة لتقييم النطق على النهج القائمة على السمات، مثل منهجية جودة النطق (GOP)، أو نماذج التعرف على الكلام القائمة على التعلم العميق لتقييم الكلام. مع صعود نماذج المحولات (Transformers)، تم استخدام النماذج المُدرَّبة مسبقًا القائمة على التعلم الذاتي المُشَبَّك (SSL) لاستخراج تمثيلات سياقية للكلام، مما أظهر تحسينات في مهام متعددة تالية. في هذه الدراسة، نقترح نموذج التقدير العكسي من الطرف إلى الطرف (E2E-R) لتقييم النطق. يتم تدريب نموذج E2E-R باستخدام عملية تدريب مكونة من خطوتين. في الخطوة الأولى، يتم تحسين النموذج المُدرَّب مسبقًا (SSL) على مهمة تمييز الصوتيات (phoneme recognition) للحصول على تمثيلات أفضل للصوتيات المُنطَقة. وفي الخطوة الثانية، تُستخدم التعلم الناقل (transfer learning) لبناء نموذج لتقييم النطق يستخدم شبكة عصبية شبيهة (Siamese neural network) للمقارنة بين تمثيلات الصوتيات المُنطَقة وتمثيلات الصوتيات القياسية (canonical phonemes)، ومن ثم إنتاج الدرجات النهائية لتقييم النطق. حقق نموذج E2E-R معامل ارتباط بيرسون (PCC) قدره 0.68، وهو قريب جدًا من أفضل النماذج الحالية (مثل نموذج GOPT-PAII)، مع التخلص من الحاجة إلى تدريب إضافي على بيانات كلام أصلي، أو هندسة سمات، أو وحدات خارجية للمحاذاة القسرية (forced alignment). إلى حد معرفتنا، تمثل هذه الدراسة أول استخدام لنموذج مُدرَّب مسبقًا (SSL) في تقييم النطق على مستوى الصوتية بشكل مباشر من موجات الصوت الخام.