Command Palette
Search for a command to run...
WaveNet: نموذج تولي للصوت الخام
WaveNet: نموذج تولي للصوت الخام
Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu
الملخص
يقدم هذا البحث نظام WaveNet، وهو شبكة عصبية عميقة مصممة لتوليد الموجات الصوتية الخام. يتميز هذا النموذج بأنه احتمالي بالكامل وتراكمي ذاتيًا، حيث تعتمد التوزيع التنبؤي لكل عينة صوتية على جميع العينات السابقة؛ ومع ذلك، نوضح أنه يمكن تدريبه بكفاءة على بيانات تحتوي على عشرات الآلاف من العينات في الثانية الواحدة من الصوت. عند تطبيقه في تحويل النص إلى كلام (text-to-speech)، يحقق أداءً يتفوق على أفضل الأنظمة المعلمية والتركيبية، حيث قام المستمعون البشريون بتقييمه بأنه يبدو أكثر طبيعية بكثير في كل من الإنجليزية والماندرين. يمكن لنظام WaveNet الواحد أن يلتقط خصائص العديد من المتحدثين بمستوى دقة متساوٍ، ويمكنه التبديل بينهم عن طريق الاعتماد على هوية المتحدث. عند تدريبه لنمذجة الموسيقى، وجدنا أنه يولد مقاطع موسيقية جديدة وأحيانًا واقعية للغاية. كما نوضح أنه يمكن استخدامه كنموذج تمييزي، مما يعود بنتائج واعدة في مجال تمييز الفونمات (phoneme recognition).