HyperAIHyperAI
منذ 2 أشهر

WaveNet: نموذج تولي للصوت الخام

Aaron van den Oord; Sander Dieleman; Heiga Zen; Karen Simonyan; Oriol Vinyals; Alex Graves; Nal Kalchbrenner; Andrew Senior; Koray Kavukcuoglu
WaveNet: نموذج تولي للصوت الخام
الملخص

يقدم هذا البحث نظام WaveNet، وهو شبكة عصبية عميقة مصممة لتوليد الموجات الصوتية الخام. يتميز هذا النموذج بأنه احتمالي بالكامل وتراكمي ذاتيًا، حيث تعتمد التوزيع التنبؤي لكل عينة صوتية على جميع العينات السابقة؛ ومع ذلك، نوضح أنه يمكن تدريبه بكفاءة على بيانات تحتوي على عشرات الآلاف من العينات في الثانية الواحدة من الصوت. عند تطبيقه في تحويل النص إلى كلام (text-to-speech)، يحقق أداءً يتفوق على أفضل الأنظمة المعلمية والتركيبية، حيث قام المستمعون البشريون بتقييمه بأنه يبدو أكثر طبيعية بكثير في كل من الإنجليزية والماندرين. يمكن لنظام WaveNet الواحد أن يلتقط خصائص العديد من المتحدثين بمستوى دقة متساوٍ، ويمكنه التبديل بينهم عن طريق الاعتماد على هوية المتحدث. عند تدريبه لنمذجة الموسيقى، وجدنا أنه يولد مقاطع موسيقية جديدة وأحيانًا واقعية للغاية. كما نوضح أنه يمكن استخدامه كنموذج تمييزي، مما يعود بنتائج واعدة في مجال تمييز الفونمات (phoneme recognition).

WaveNet: نموذج تولي للصوت الخام | أحدث الأوراق البحثية | HyperAI