HyperAIHyperAI

Command Palette

Search for a command to run...

BDDM: نماذج التمايز التخلص من الضوضاء الثنائية للتخليق الصوتي السريع عالي الجودة

Max W. Y. Lam Jun Wang Dan Su Dong Yu

الملخص

أصبحت نماذج الانتشار الاحتمالية (DPMs) وتوسيعاتها المطورة نماذج توليدية تنافسية، لكنها تواجه تحديات في العينات الفعالة. نقترح نموذجًا جديدًا للتشويش المزدوج (BDDM) يُمثّل كلًّا من العمليات الأمامية والعكسية باستخدام شبكة جدول زمني وشبكة تقييم، ويُدرّس باستخدام هدف توصيف مزدوج جديد. نُظهر أن الهدف البديل الجديد يمكنه تحقيق حدٍّ أدنى للاحتمال الطرفي اللوغاريتمي يكون أدقّ من الهدف البديل التقليدي. كما لاحظنا أن BDDM يتيح استلهام معاملات الشبكة المُقيّمة المُدرّبة مسبقًا من أي نموذج DPM، مما يُمكّن من تعلّم شبكة الجدول الزمني بسرعة وثبات، وتحسين جدول الضوضاء لغاية العينات. تُظهر تجاربنا أن نماذج BDDM قادرة على إنتاج عينات صوتية عالية الوضوح باستخدام ما لا يزيد عن ثلاث خطوات للعينة. علاوةً على ذلك، مقارنةً بنماذج مُولدات الصوت العصبية القائمة على الانتشار من المستوى الرائد، تُنتج نماذج BDDM عينات بجودة مماثلة أو أعلى، لا يمكن تمييزها عن الكلام البشري، وبشكل خاص باستخدام سبعة خطوات فقط للعينة (أسرع بـ 143 مرة من WaveGrad و28.6 مرة من DiffWave). نُطلق كودنا على الرابط: https://github.com/tencent-ailab/bddm.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp