HyperAIHyperAI
منذ 11 أيام

BDDM: نماذج التمايز التخلص من الضوضاء الثنائية للتخليق الصوتي السريع عالي الجودة

Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
BDDM: نماذج التمايز التخلص من الضوضاء الثنائية للتخليق الصوتي السريع عالي الجودة
الملخص

أصبحت نماذج الانتشار الاحتمالية (DPMs) وتوسيعاتها المطورة نماذج توليدية تنافسية، لكنها تواجه تحديات في العينات الفعالة. نقترح نموذجًا جديدًا للتشويش المزدوج (BDDM) يُمثّل كلًّا من العمليات الأمامية والعكسية باستخدام شبكة جدول زمني وشبكة تقييم، ويُدرّس باستخدام هدف توصيف مزدوج جديد. نُظهر أن الهدف البديل الجديد يمكنه تحقيق حدٍّ أدنى للاحتمال الطرفي اللوغاريتمي يكون أدقّ من الهدف البديل التقليدي. كما لاحظنا أن BDDM يتيح استلهام معاملات الشبكة المُقيّمة المُدرّبة مسبقًا من أي نموذج DPM، مما يُمكّن من تعلّم شبكة الجدول الزمني بسرعة وثبات، وتحسين جدول الضوضاء لغاية العينات. تُظهر تجاربنا أن نماذج BDDM قادرة على إنتاج عينات صوتية عالية الوضوح باستخدام ما لا يزيد عن ثلاث خطوات للعينة. علاوةً على ذلك، مقارنةً بنماذج مُولدات الصوت العصبية القائمة على الانتشار من المستوى الرائد، تُنتج نماذج BDDM عينات بجودة مماثلة أو أعلى، لا يمكن تمييزها عن الكلام البشري، وبشكل خاص باستخدام سبعة خطوات فقط للعينة (أسرع بـ 143 مرة من WaveGrad و28.6 مرة من DiffWave). نُطلق كودنا على الرابط: https://github.com/tencent-ailab/bddm.

BDDM: نماذج التمايز التخلص من الضوضاء الثنائية للتخليق الصوتي السريع عالي الجودة | أحدث الأوراق البحثية | HyperAI