HyperAIHyperAI
منذ 2 أشهر

الشبكات العصبية المتكررة القطاعية للاعتراف الصوتي من النهاية إلى النهاية

Liang Lu; Lingpeng Kong; Chris Dyer; Noah A. Smith; Steve Renals
الشبكات العصبية المتكررة القطاعية للاعتراف الصوتي من النهاية إلى النهاية
الملخص

ندرس الشبكة العصبية التكرارية القائمة على المقاطع لنمذجة الصوت من البداية إلى النهاية. يربط هذا النموذج حقل العشوائية الشرطي القائم على المقاطع (CRF) بالشبكة العصبية التكرارية (RNN) المستخدمة في استخراج الميزات. مقارنة بمعظم النماذج الصوتية السابقة القائمة على CRF، لا يعتمد هذا النموذج على نظام خارجي لتوفير الميزات أو حدود التقسيم. بدلاً من ذلك، يقوم هذا النموذج بإخراج جميع التقسيمات المحتملة، وتُستخرج الميزات من RNN التي تم تدريبها مع CRF القائم على المقاطع. في جوهره، يكون هذا النموذج ذاتيًا ومتكاملًا ويمكن تدريبه من البداية إلى النهاية. في هذه الورقة، نناقش قضايا التدريب والفك العمليّة بالإضافة إلى طريقة تسريع التدريب في سياق التعرف على الكلام. أجرينا تجارب على مجموعة بيانات TIMIT. حققنا معدل خطأ هواتفي (PER) قدره 17.3٪ من الفك الأول --- وهو أفضل نتيجة تم الإبلاغ عنها باستخدام CRFs، رغم أننا استخدمنا فقط CRF من الرتبة الصفرية ولم نستخدم أي نموذج لغوي.

الشبكات العصبية المتكررة القطاعية للاعتراف الصوتي من النهاية إلى النهاية | أحدث الأوراق البحثية | HyperAI