HyperAIHyperAI

Command Palette

Search for a command to run...

ContextNet: تحسين الشبكات العصبية التلافيفية للإعتراف التلقائي بالصوت من خلال السياق العالمي

Wei Han Zhengdong Zhang Yu Zhang Jiahui Yu Chung-Cheng Chiu James Qin Anmol Gulati Ruoming Pang Yonghui Wu

الملخص

أظهرت الشبكات العصبية التلافيفية (CNN) نتائج واعدة في التعرف على الكلام من النهاية إلى النهاية، رغم أنها لا تزال تتخلف عن الطرق المتقدمة الأخرى من حيث الأداء. في هذه الورقة، ندرس كيفية سد هذا الفجوة والتفوق عليها من خلال معمارية جديدة تُسمى ContextNet، وهي معمارية مبنية على CNN وRNN وTransducer. تتميز ContextNet بمحول كامل التلافيف (fully convolutional encoder) يُدمج معلومات السياق الشاملة في طبقات التلافيف من خلال إضافة وحدات ضغط وتحفيز (squeeze-and-excitation modules). بالإضافة إلى ذلك، نقترح طريقة بسيطة للتوسيع (scaling method) تُمكّن من توسيع عرض شبكة ContextNet، مما يحقق توازنًا جيدًا بين الحساب والدقة. نُظهر أن ContextNet تحقق معدل خطأ كلمات (WER) قدره 2.1%/4.6% دون استخدام نموذج لغوي خارجي (LM)، و1.9%/4.1% عند استخدام نموذج لغوي، و2.9%/7.0% باستخدام فقط 10 ملايين معلمة على مجموعات اختبار LibriSpeech النظيفة/المشوّشة. وهذا يُقاس بـ 2.0%/4.6% مع نموذج لغوي، و3.9%/11.3% باستخدام 20 مليون معلمة في النظام السابق الأفضل المنشور. كما تم التحقق من تفوق النموذج المقترح ContextNet على مجموعة بيانات داخلية أكبر بكثير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp