HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات العصبية المُستَفَدَّة للاعتراف بالصوت منخفضة التأخير

Jonathan Macoskey Grant P. Strimel Jinru Su Ariya Rastrow

الملخص

نقدّم شبكات عصبية مُتَمَوِّلَة (AmNets)، وهي بنية شبكة مُراعية لتكلفة الحوسبة والتأخير، وتُعدّ مناسبة بشكل خاص للمهام المتعلقة بنمذجة التسلسلات. نطبّق AmNets على نموذج المحول العصبي التكراري (RNN-T) لتقليل تكلفة الحوسبة والتأخير في مهمة التعرف التلقائي على الصوت (ASR). تسمح بنية AmNets الخاصة بـ RNN-T للشبكة بالتبديل الديناميكي بين فروع المشفر (encoder) على أساس كل إطار بشكل فردي. تُبنى الفروع بمستويات مختلفة من تكلفة الحوسبة وسعة النموذج. وفي هذا العمل، نحقق تبايناً في تكلفة الحوسبة باستخدام طريقتين شهيرتين: الأولى تعتمد على التقطيع النادر (sparse pruning)، والثانية تعتمد على تحليل المصفوفات (matrix factorization). ويُحدّد التبديل الإطاري بالإطار بواسطة شبكة مُوسِّط (arbitrator network) التي تتطلب حسابات مهملة. نُقدّم النتائج المُحقَّقة باستخدام كلا البنية على بيانات LibriSpeech، ونُظهر أن البنية المقترحة قادرة على تقليل تكلفة الاستدلال بنسبة تصل إلى 45%، مع تقليل التأخير إلى حدود الوقت الحقيقي، دون التضحية بدقة النموذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الشبكات العصبية المُستَفَدَّة للاعتراف بالصوت منخفضة التأخير | مستندات | HyperAI