HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التعرف على الكلام الماندارين باستخدام مُحَوِّل مُزوَّد بكتل تعديلية

Xiaoming Ren Huifeng Zhu Liuwei Wei Minghui Wu Jie Hao

الملخص

في الآونة الأخيرة، أظهرت نموذج التحويل المُعزز بالتحول التوافقي (Conformer) نتائج واعدة في التعرف التلقائي على الكلام (ASR)، متفوقةً على أفضل نموذج منشور سابق من نوع Transformer Transducer. في هذا العمل، نعتقد أن المعلومات المخرجة من كل كتلة في وحدة التشفير (encoder) ووحدة التفكيك (decoder) ليست شاملة تمامًا، بمعنى آخر، قد تكون معلوماتها مكملة لبعضها البعض. وندرس كيفية الاستفادة من هذه المعلومات المكملة بطريقة فعالة من حيث عدد المعاملات (parameter-efficient)، ونأمل أن يؤدي هذا إلى أداء أكثر موثوقية. لذلك نقترح نموذجًا جديدًا يُسمى Blockformer، وهو نموذج تحويل مُعزز بالكتل (Block-augmented Transformer) لتطبيقات التعرف على الكلام. وقد قمنا بتنفيذ طريقتين لدمج الكتل: الطريقة الأساسية المتمثلة في مجموع الأوزان للإخراجات الكتلية (Base-WSBO)، والطريقة المبنية على وحدة التقليل والتحفيز (Squeeze-and-Excitation) لتطبيق مجموع الأوزان على إخراجات الكتل (SE-WSBO). وقد أثبتت التجارب أن Blockformer يتفوق بشكل كبير على النماذج الحالية المستندة إلى Conformer على مجموعة بيانات AISHELL-1، حيث حقق معدل خطأ حروف (CER) قدره 4.29٪ دون استخدام نموذج لغوي، و4.05٪ عند استخدام نموذج لغوي خارجي، على مجموعة الاختبار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp