Zipformer: مُشَكِّلٌ أسرع وأفضل للترميز في التعرف التلقائي على الكلام

أصبح نموذج Conformer الأكثر شيوعًا كنموذج مشفر (encoder) في التعرف التلقائي على الكلام (ASR). حيث يضيف وحدات تصفية (convolution modules) إلى نموذج Transformer لتمكينه من تعلم الاعتماديات المحلية والعالمية معًا. في هذا العمل، نقدم نموذجًا أسرع، وأكثر كفاءة من حيث استخدام الذاكرة، وأفضل أداءً، يُدعى Zipformer. تشمل التغييرات في النمذجة ما يلي: 1) هيكل مشابه لـ U-Net في وحدة التشفير، حيث تعمل الطبقات الوسطى بترددات إطارية أقل؛ 2) هيكل كتلة مُعاد تنظيمه يحتوي على عدد أكبر من الوحدات، حيث نعيد استخدام أوزان الانتباه لزيادة الكفاءة؛ 3) نموذج معدل لطبقة التطبيع (LayerNorm) يُسمى BiasNorm، والذي يسمح لنا بالحفاظ على بعض المعلومات المتعلقة بطول التسلسل؛ 4) دوال نشاط جديدة تُسمى SwooshR و SwooshL، والتي تُظهر أداءً أفضل من دالة Swish. كما نقترح مُحسّنًا جديدًا يُدعى ScaledAdam، والذي يُضخم التحديث حسب المقياس الحالي لكل مصفوفة (tensor)، للحفاظ على التغير النسبي ثابتًا، كما يتعلم بشكل صريح مقياس المُعاملات. ويحقق هذا المُحسّن تقاربًا أسرع وأداءً أفضل من مُحسّن Adam. أظهرت تجارب واسعة النطاق على مجموعات بيانات LibriSpeech، Aishell-1، وWenetSpeech فعالية نموذج Zipformer المقترح مقارنةً بنماذج ASR الرائدة الأخرى. ويتوفر الكود الخاص بنا بشكل عام على الرابط التالي: https://github.com/k2-fsa/icefall.