MatchboxNet: معمارية شبكة عصبية تلافيفية زمنية-قناة من الدرجة الأولى للاعتراف بتعليمات الصوت

نقدّم نموذج MatchboxNet – شبكة عصبية من النهاية إلى النهاية لتمييز أوامر الكلام. يتكوّن MatchboxNet من شبكة عميقة ذات تراكيب تُعرف بـ "الشبكة المتبقية"، وتشمل كتلًا من التحويلات الثنائية الأبعاد (1D) المُفصَّلة في الزمن والقناة، بالإضافة إلى طبقات التطبيع الدفعي (Batch-Normalization)، ووظيفة التنشيط ReLU، وطبقات التخفيض (Dropout). وقد حقق MatchboxNet دقةً متقدمة على مستوى الحالة الحالية (State-of-the-art) في مجموعة بيانات Google Speech Commands، مع عدد مُحدود جدًا من المعاملات مقارنةً بالنماذج المشابهة. ويُعدّ الحجم الصغير للنموذج ميزة جذابة له في الأجهزة ذات الموارد الحسابية المحدودة. كما أن النموذج قابل للتوسع بدرجة عالية، مما يسمح بتحسين دقة النموذج بزيادة طفيفة في الذاكرة والقدرة الحسابية. وأخيرًا، نُظهر كيف أن استخدام التضخيم المكثّف للبيانات باستخدام مجموعة ضوضاء ثانوية يُحسّن مقاومة النموذج في بيئة مليئة بالضوضاء الخلفية.