الملخص

يقدم هذا البحث نظام WaveNet، وهو شبكة عصبية عميقة مصممة لتوليد الموجات الصوتية الخام. يتميز هذا النموذج بأنه احتمالي بالكامل وتراكمي ذاتيًا، حيث تعتمد التوزيع التنبؤي لكل عينة صوتية على جميع العينات السابقة؛ ومع ذلك، نوضح أنه يمكن تدريبه بكفاءة على بيانات تحتوي على عشرات الآلاف من العينات في الثانية الواحدة من الصوت. عند تطبيقه في تحويل النص إلى كلام (text-to-speech)، يحقق أداءً يتفوق على أفضل الأنظمة المعلمية والتركيبية، حيث قام المستمعون البشريون بتقييمه بأنه يبدو أكثر طبيعية بكثير في كل من الإنجليزية والماندرين. يمكن لنظام WaveNet الواحد أن يلتقط خصائص العديد من المتحدثين بمستوى دقة متساوٍ، ويمكنه التبديل بينهم عن طريق الاعتماد على هوية المتحدث. عند تدريبه لنمذجة الموسيقى، وجدنا أنه يولد مقاطع موسيقية جديدة وأحيانًا واقعية للغاية. كما نوضح أنه يمكن استخدامه كنموذج تمييزي، مما يعود بنتائج واعدة في مجال تمييز الفونمات (phoneme recognition).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار