التعرف على الكلام باستخدام الشبكات العصبية المتكررة العميقة

الشبكات العصبية التكرارية (RNNs) هي نموذج قوي للبيانات المتتابعة. تجعل طرق التدريب من النهاية إلى النهاية مثل تصنيف الزمني الاتصال (Connectionist Temporal Classification) من الممكن تدريب الشبكات العصبية التكرارية على مشاكل تصنيف المتتابع حيث يكون محاذاة الإدخال والإخراج غير معروفة. لقد أثبتت الجمع بين هذه الطرق والهندسة المعمارية للذاكرة طويلة الأمد قصيرة المدى (Long Short-term Memory RNN) فعالية خاصة، حيث حققت نتائجًا رائدة في اعتراف الكتابة اليدوية المتصلة. ومع ذلك، كانت أداء الشبكات العصبية التكرارية في اعتراف الكلام حتى الآن مخيبًا للآمال، مع تحقيق نتائج أفضل بواسطة الشبكات العصبية ذات الإطعام العميق. يتناول هذا البحث \emph{الشبكات العصبية التكرارية العميقة}، التي تجمع بين المستويات المتعددة للتمثيل التي أثبتت فعاليتها في الشبكات العميقة مع الاستخدام المرن للسياق الطويل المدى الذي يمكّن الشبكات العصبية التكرارية. عند تدريبها من النهاية إلى النهاية باستخدام تنظيم مناسب، نجد أن الشبكات العصبية التكرارية العميقة ذات الذاكرة طويلة الأمد قصيرة المدى تحقق خطأً بنسبة 17.7% على مجموعة اختبار معيار TIMIT للاعتراف بالفونمات، وهو ما يعتبر أفضل نتيجة تم تسجيلها حسب علمنا.