HyperAIHyperAI

Command Palette

Search for a command to run...

DiffWave: نموذج تمايز متعدد الاستخدامات لتركيب الصوت

Zhifeng Kong Wei Ping Jiaji Huang Kexin Zhao Bryan Catanzaro

الملخص

في هذه الدراسة، نقترح نموذج DiffWave، وهو نموذج احتمالي تفاضلي متعدد الاستخدامات لإنشاء موجات صوتية شرطية وغير شرطية. يتميز النموذج بأنه غير تكراري (non-autoregressive)، ويحول إشارة الضوضاء البيضاء إلى موجة منظمة من خلال سلسلة ماركوف بعدد ثابت من الخطوات أثناء التوليد. يمكن تدريبه بكفاءة من خلال تحسين صيغة معينة من الحد التقديرية التباينية على احتمالية البيانات. يُنتج DiffWave صوتًا عالي الجودة في مهام مختلفة لإنشاء الموجات الصوتية، بما في ذلك التوليد العصبي للصوت المعتمد على الطيف الميل، والتوليد الشرطي حسب الفئة، والتوليد غير الشرطي. نُظهر أن DiffWave يتفوق على نموذج WaveNet القوي من حيث جودة الصوت (متوسط التقييم البشري: 4.44 مقابل 4.43)، مع تسريع كبير في عملية التوليد بعشرات المرات. وبشكل خاص، يتفوق بشكل ملحوظ على النماذج التكرارية والنموذج المستند إلى الشبكات التوليدية المتنافسة (GAN) في مهمة التوليد غير الشرطي الصعبة من حيث جودة الصوت وتنوع العينات، وذلك وفقًا لتقييمات آلية وبشرية متعددة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DiffWave: نموذج تمايز متعدد الاستخدامات لتركيب الصوت | مستندات | HyperAI