HyperAIHyperAI
منذ 3 أشهر

الشبكات العصبية المُستَفَدَّة للاعتراف بالصوت منخفضة التأخير

Jonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow
الشبكات العصبية المُستَفَدَّة للاعتراف بالصوت منخفضة التأخير
الملخص

نقدّم شبكات عصبية مُتَمَوِّلَة (AmNets)، وهي بنية شبكة مُراعية لتكلفة الحوسبة والتأخير، وتُعدّ مناسبة بشكل خاص للمهام المتعلقة بنمذجة التسلسلات. نطبّق AmNets على نموذج المحول العصبي التكراري (RNN-T) لتقليل تكلفة الحوسبة والتأخير في مهمة التعرف التلقائي على الصوت (ASR). تسمح بنية AmNets الخاصة بـ RNN-T للشبكة بالتبديل الديناميكي بين فروع المشفر (encoder) على أساس كل إطار بشكل فردي. تُبنى الفروع بمستويات مختلفة من تكلفة الحوسبة وسعة النموذج. وفي هذا العمل، نحقق تبايناً في تكلفة الحوسبة باستخدام طريقتين شهيرتين: الأولى تعتمد على التقطيع النادر (sparse pruning)، والثانية تعتمد على تحليل المصفوفات (matrix factorization). ويُحدّد التبديل الإطاري بالإطار بواسطة شبكة مُوسِّط (arbitrator network) التي تتطلب حسابات مهملة. نُقدّم النتائج المُحقَّقة باستخدام كلا البنية على بيانات LibriSpeech، ونُظهر أن البنية المقترحة قادرة على تقليل تكلفة الاستدلال بنسبة تصل إلى 45%، مع تقليل التأخير إلى حدود الوقت الحقيقي، دون التضحية بدقة النموذج.