HyperAIHyperAI
منذ 17 أيام

تحسين التعرف على الكلام الماندارين باستخدام مُحَوِّل مُزوَّد بكتل تعديلية

Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao
تحسين التعرف على الكلام الماندارين باستخدام مُحَوِّل مُزوَّد بكتل تعديلية
الملخص

في الآونة الأخيرة، أظهرت نموذج التحويل المُعزز بالتحول التوافقي (Conformer) نتائج واعدة في التعرف التلقائي على الكلام (ASR)، متفوقةً على أفضل نموذج منشور سابق من نوع Transformer Transducer. في هذا العمل، نعتقد أن المعلومات المخرجة من كل كتلة في وحدة التشفير (encoder) ووحدة التفكيك (decoder) ليست شاملة تمامًا، بمعنى آخر، قد تكون معلوماتها مكملة لبعضها البعض. وندرس كيفية الاستفادة من هذه المعلومات المكملة بطريقة فعالة من حيث عدد المعاملات (parameter-efficient)، ونأمل أن يؤدي هذا إلى أداء أكثر موثوقية. لذلك نقترح نموذجًا جديدًا يُسمى Blockformer، وهو نموذج تحويل مُعزز بالكتل (Block-augmented Transformer) لتطبيقات التعرف على الكلام. وقد قمنا بتنفيذ طريقتين لدمج الكتل: الطريقة الأساسية المتمثلة في مجموع الأوزان للإخراجات الكتلية (Base-WSBO)، والطريقة المبنية على وحدة التقليل والتحفيز (Squeeze-and-Excitation) لتطبيق مجموع الأوزان على إخراجات الكتل (SE-WSBO). وقد أثبتت التجارب أن Blockformer يتفوق بشكل كبير على النماذج الحالية المستندة إلى Conformer على مجموعة بيانات AISHELL-1، حيث حقق معدل خطأ حروف (CER) قدره 4.29٪ دون استخدام نموذج لغوي، و4.05٪ عند استخدام نموذج لغوي خارجي، على مجموعة الاختبار.