نموذج صوتييتم استخدامه لحساب احتمالية قيام النموذج بإنشاء شكل موجة الكلام. إنه أحد أهم الأجزاء في نظام التعرف على الكلام ويشكل الجزء الأكبر من تكلفة الحوسبة، مما يحدد أداء نظام التعرف على الكلام.
تاريخ التطوير
- الأساليب التقليدية: تعتمد على نماذج ماركوف الصوتية المخفية، مثل طريقة النمذجة GMM-HMM - حيث يتم استخدام GMM لنمذجة توزيع السمات الصوتية للكلام، ويتم استخدام HMM لنمذجة الطبيعة الزمنية لإشارات الكلام؛
- الشبكة العصبية العميقة: تستخدم في نموذج الكلام الصوتي. استخدم هينتون وطلابه شبكة عصبية عميقة متصلة بالكامل ذات تغذية أمامية للتعرف على الكلام في عام 2009، والتي كان أداؤها أفضل من النموذج الصوتي القائم على DNN-HMM على مجموعة بيانات TIMIT.
- استخدام معلومات السياق ذات الطول المتغير: في عام 2015، تم استخدام النماذج الصوتية التي تستخدم معلومات الكلام ذات الطول المتغير. يتأثر الطول الأمثل لمعلومات الكلام بالفونيمات وسرعة التحدث. لا تعد نوافذ السياق ذات الطول الثابت هي الخيار الأفضل في أنظمة DNN-HMM الهجينة. تعتمد النماذج الجديدة في السنوات الأخيرة بشكل أساسي على الشبكات العصبية المتكررة (RNN) والشبكات العصبية التلافيفية (CNN).
مراجع
【1】النموذج الصوتي لتقنية التعرف على الكلام - الذكاء الاصطناعي 52AI - مدونة CSDN
【2】يو دونغ، نائب مدير مختبر الذكاء الاصطناعي في تينسنت: التقدم في النماذج الصوتية القائمة على التعلم العميق في العامين الماضيين | قلب الآلة