HyperAIHyperAI
منذ 16 أيام

DiffWave: نموذج تمايز متعدد الاستخدامات لتركيب الصوت

Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro
DiffWave: نموذج تمايز متعدد الاستخدامات لتركيب الصوت
الملخص

في هذه الدراسة، نقترح نموذج DiffWave، وهو نموذج احتمالي تفاضلي متعدد الاستخدامات لإنشاء موجات صوتية شرطية وغير شرطية. يتميز النموذج بأنه غير تكراري (non-autoregressive)، ويحول إشارة الضوضاء البيضاء إلى موجة منظمة من خلال سلسلة ماركوف بعدد ثابت من الخطوات أثناء التوليد. يمكن تدريبه بكفاءة من خلال تحسين صيغة معينة من الحد التقديرية التباينية على احتمالية البيانات. يُنتج DiffWave صوتًا عالي الجودة في مهام مختلفة لإنشاء الموجات الصوتية، بما في ذلك التوليد العصبي للصوت المعتمد على الطيف الميل، والتوليد الشرطي حسب الفئة، والتوليد غير الشرطي. نُظهر أن DiffWave يتفوق على نموذج WaveNet القوي من حيث جودة الصوت (متوسط التقييم البشري: 4.44 مقابل 4.43)، مع تسريع كبير في عملية التوليد بعشرات المرات. وبشكل خاص، يتفوق بشكل ملحوظ على النماذج التكرارية والنموذج المستند إلى الشبكات التوليدية المتنافسة (GAN) في مهمة التوليد غير الشرطي الصعبة من حيث جودة الصوت وتنوع العينات، وذلك وفقًا لتقييمات آلية وبشرية متعددة.

DiffWave: نموذج تمايز متعدد الاستخدامات لتركيب الصوت | أحدث الأوراق البحثية | HyperAI