HyperAIHyperAI

Command Palette

Search for a command to run...

تجميع أحادي النمط للتصنيف الصوتي القائم على CTC

Ying Fang Xiaofei Li

الملخص

يُركّز هذا البحث على التعرف التلقائي على الكلام غير التكراري (non-autoregressive automatic speech recognition). ويُقترح فيه نموذج تجميع أحادي النمط (Unimodal Aggregation, UMA) لتقسيم الإطارات المميزة التي تعود إلى نفس الرمز النصي ودمجها، بهدف تعلّم تمثيلات مميزة أفضل للرموز النصية. إذ تُستمد إطارات الميزات والوزن الخاص بها من مشفر (encoder) واحد. ثم تُدمج إطارات الميزات باستخدام الأوزان الأحادية النمطية، وتُعالج لاحقًا بواسطة فاصل (decoder). ويُطبّق خسارة التصنيف الزمني الاتصالي (Connectionist Temporal Classification, CTC) في التدريب. مقارنةً بالـ CTC التقليدي، يتعلّم النهج المُقترح تمثيلات مميزة أفضل ويُقلّص طول التسلسل، مما يؤدي إلى انخفاض في خطأ التعرف وتعقيد الحساب. أظهرت التجارب على ثلاث مجموعات بيانات صوتية باللغة الصينية (المندرينية) أن نموذج UMA يُقدّم أداءً متفوّقًا أو مماثلًا لأفضل الطرق غير التكرارية الأخرى، مثل CTC ذات التحفيز الذاتي (self-conditioned CTC). علاوةً على ذلك، يمكن تحسين الأداء بشكل ملحوظ من خلال دمج CTC ذات التحفيز الذاتي داخل الإطار المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp