HyperAIHyperAI

Command Palette

Search for a command to run...

النمذجة الصوتية

التاريخ

منذ 7 أعوام

نموذج صوتييتم استخدامه لحساب احتمالية قيام النموذج بإنشاء شكل موجة الكلام. إنه أحد أهم الأجزاء في نظام التعرف على الكلام ويشكل الجزء الأكبر من تكلفة الحوسبة، مما يحدد أداء نظام التعرف على الكلام.

تاريخ التطوير

  • الأساليب التقليدية: تعتمد على نماذج ماركوف الصوتية المخفية، مثل طريقة النمذجة GMM-HMM - حيث يتم استخدام GMM لنمذجة توزيع السمات الصوتية للكلام، ويتم استخدام HMM لنمذجة الطبيعة الزمنية لإشارات الكلام؛
  • الشبكة العصبية العميقة: تستخدم في نموذج الكلام الصوتي. استخدم هينتون وطلابه شبكة عصبية عميقة متصلة بالكامل ذات تغذية أمامية للتعرف على الكلام في عام 2009، والتي كان أداؤها أفضل من النموذج الصوتي القائم على DNN-HMM على مجموعة بيانات TIMIT.
  • استخدام معلومات السياق ذات الطول المتغير: في عام 2015، تم استخدام النماذج الصوتية التي تستخدم معلومات الكلام ذات الطول المتغير. يتأثر الطول الأمثل لمعلومات الكلام بالفونيمات وسرعة التحدث. لا تعد نوافذ السياق ذات الطول الثابت هي الخيار الأفضل في أنظمة DNN-HMM الهجينة. تعتمد النماذج الجديدة في السنوات الأخيرة بشكل أساسي على الشبكات العصبية المتكررة (RNN) والشبكات العصبية التلافيفية (CNN).

مراجع

【1】النموذج الصوتي لتقنية التعرف على الكلام - الذكاء الاصطناعي 52AI - مدونة CSDN

【2】يو دونغ، نائب مدير مختبر الذكاء الاصطناعي في تينسنت: التقدم في النماذج الصوتية القائمة على التعلم العميق في العامين الماضيين | قلب الآلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp