HyperAIHyperAI

Command Palette

Search for a command to run...

Zipformer: مُشَكِّلٌ أسرع وأفضل للترميز في التعرف التلقائي على الكلام

Zengwei Yao Liyong Guo Xiaoyu Yang Wei Kang Fangjun Kuang Yifan Yang Zengrui Jin Long Lin Daniel Povey

الملخص

أصبح نموذج Conformer الأكثر شيوعًا كنموذج مشفر (encoder) في التعرف التلقائي على الكلام (ASR). حيث يضيف وحدات تصفية (convolution modules) إلى نموذج Transformer لتمكينه من تعلم الاعتماديات المحلية والعالمية معًا. في هذا العمل، نقدم نموذجًا أسرع، وأكثر كفاءة من حيث استخدام الذاكرة، وأفضل أداءً، يُدعى Zipformer. تشمل التغييرات في النمذجة ما يلي: 1) هيكل مشابه لـ U-Net في وحدة التشفير، حيث تعمل الطبقات الوسطى بترددات إطارية أقل؛ 2) هيكل كتلة مُعاد تنظيمه يحتوي على عدد أكبر من الوحدات، حيث نعيد استخدام أوزان الانتباه لزيادة الكفاءة؛ 3) نموذج معدل لطبقة التطبيع (LayerNorm) يُسمى BiasNorm، والذي يسمح لنا بالحفاظ على بعض المعلومات المتعلقة بطول التسلسل؛ 4) دوال نشاط جديدة تُسمى SwooshR و SwooshL، والتي تُظهر أداءً أفضل من دالة Swish. كما نقترح مُحسّنًا جديدًا يُدعى ScaledAdam، والذي يُضخم التحديث حسب المقياس الحالي لكل مصفوفة (tensor)، للحفاظ على التغير النسبي ثابتًا، كما يتعلم بشكل صريح مقياس المُعاملات. ويحقق هذا المُحسّن تقاربًا أسرع وأداءً أفضل من مُحسّن Adam. أظهرت تجارب واسعة النطاق على مجموعات بيانات LibriSpeech، Aishell-1، وWenetSpeech فعالية نموذج Zipformer المقترح مقارنةً بنماذج ASR الرائدة الأخرى. ويتوفر الكود الخاص بنا بشكل عام على الرابط التالي: https://github.com/k2-fsa/icefall.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp