منذ 2 أشهر
تقييم النطق متعدد الجوانب ومتعدد المستويات لمحظوظي اللغة الإنجليزية غير الأصليين باستخدام نماذج الترانسفورمر
Yuan Gong; Ziyi Chen; Iek-Heng Chu; Peng Chang; James Glass

الملخص
التقييم الآلي للنطق هو تقنية مهمة لمساعدة المتعلمين الذاتيين للغات. بينما يشمل جودة النطق العديد من الجوانب مثل الدقة والانسيابية والإكمال والتونية، فإن الجهود السابقة عادة ما تركز على نمذجة جانب واحد (مثل الدقة) بمستوى تفصيلي واحد (مثل المستوى الصوتي). في هذا البحث، نستكشف نمذجة التقييم متعدد الجوانب للنطق بمستويات تفصيلية متعددة. تحديداً، نقوم بتدريب متحول (Transformer) يستند إلى خصائص جودة النطق (Goodness of Pronunciation - GOPT) باستخدام التعلم متعدد المهام. أظهرت التجارب أن GOPT حقق أفضل النتائج على مجموعة بيانات Speechocean762 باستخدام نموذج صوتي آلي لفهم الكلام (Automatic Speech Recognition - ASR) تم تدريبه على Librispeech.