ContextNet: تحسين الشبكات العصبية التلافيفية للإعتراف التلقائي بالصوت من خلال السياق العالمي

أظهرت الشبكات العصبية التلافيفية (CNN) نتائج واعدة في التعرف على الكلام من النهاية إلى النهاية، رغم أنها لا تزال تتخلف عن الطرق المتقدمة الأخرى من حيث الأداء. في هذه الورقة، ندرس كيفية سد هذا الفجوة والتفوق عليها من خلال معمارية جديدة تُسمى ContextNet، وهي معمارية مبنية على CNN وRNN وTransducer. تتميز ContextNet بمحول كامل التلافيف (fully convolutional encoder) يُدمج معلومات السياق الشاملة في طبقات التلافيف من خلال إضافة وحدات ضغط وتحفيز (squeeze-and-excitation modules). بالإضافة إلى ذلك، نقترح طريقة بسيطة للتوسيع (scaling method) تُمكّن من توسيع عرض شبكة ContextNet، مما يحقق توازنًا جيدًا بين الحساب والدقة. نُظهر أن ContextNet تحقق معدل خطأ كلمات (WER) قدره 2.1%/4.6% دون استخدام نموذج لغوي خارجي (LM)، و1.9%/4.1% عند استخدام نموذج لغوي، و2.9%/7.0% باستخدام فقط 10 ملايين معلمة على مجموعات اختبار LibriSpeech النظيفة/المشوّشة. وهذا يُقاس بـ 2.0%/4.6% مع نموذج لغوي، و3.9%/11.3% باستخدام 20 مليون معلمة في النظام السابق الأفضل المنشور. كما تم التحقق من تفوق النموذج المقترح ContextNet على مجموعة بيانات داخلية أكبر بكثير.