HyperAIHyperAI
منذ 2 أشهر

الشبكات العصبية المتكررة العميقة لنمذجة الصوت

William Chan; Ian Lane
الشبكات العصبية المتكررة العميقة لنمذجة الصوت
الملخص

نقدم نموذجًا جديدًا عميقًا لشبكات العصبونات التكرارية (RNN) للاستخدام في النمذجة الصوتية ضمن تقنية التعرف على الكلام تلقائيًا (ASR). نطلق على مساهمتنا اسم نموذج TC-DNN-BLSTM-DNN، حيث يجمع هذا النموذج بين شبكة عصبية عميقة (DNN) وعملية التفاف زمنية (TC)، ثم يتبعها بذاكرة طويلة قصيرة الاتجاهين (BLSTM)، وأخيراً شبكة عصبية عميقة أخرى (DNN). تعمل الشبكة العصبية العميقة الأولى كمعالج للسمات في نموذجنا، بينما تقوم الذاكرة طويلة قصيرة الاتجاهين (BLSTM) بإنشاء سياق من الإشارة الصوتية المتسلسلة، وأخيراً تأخذ الشبكة العصبية العميقة الأخيرة هذا السياق وتقوم بنمذجة احتمالات الحالة الصوتية اللاحقة. حققنا معدل خطأ لكلمات يبلغ 3.47% في مهمة تقييم Wall Street Journal (WSJ) eval92، أو ما يزيد عن 8% من التحسين النسبي مقارنة بالنموذج الأساسي للشبكات العصبية العميقة (DNN).