BDDM: نماذج التمايز التخلص من الضوضاء الثنائية للتخليق الصوتي السريع عالي الجودة

أصبحت نماذج الانتشار الاحتمالية (DPMs) وتوسيعاتها المطورة نماذج توليدية تنافسية، لكنها تواجه تحديات في العينات الفعالة. نقترح نموذجًا جديدًا للتشويش المزدوج (BDDM) يُمثّل كلًّا من العمليات الأمامية والعكسية باستخدام شبكة جدول زمني وشبكة تقييم، ويُدرّس باستخدام هدف توصيف مزدوج جديد. نُظهر أن الهدف البديل الجديد يمكنه تحقيق حدٍّ أدنى للاحتمال الطرفي اللوغاريتمي يكون أدقّ من الهدف البديل التقليدي. كما لاحظنا أن BDDM يتيح استلهام معاملات الشبكة المُقيّمة المُدرّبة مسبقًا من أي نموذج DPM، مما يُمكّن من تعلّم شبكة الجدول الزمني بسرعة وثبات، وتحسين جدول الضوضاء لغاية العينات. تُظهر تجاربنا أن نماذج BDDM قادرة على إنتاج عينات صوتية عالية الوضوح باستخدام ما لا يزيد عن ثلاث خطوات للعينة. علاوةً على ذلك، مقارنةً بنماذج مُولدات الصوت العصبية القائمة على الانتشار من المستوى الرائد، تُنتج نماذج BDDM عينات بجودة مماثلة أو أعلى، لا يمكن تمييزها عن الكلام البشري، وبشكل خاص باستخدام سبعة خطوات فقط للعينة (أسرع بـ 143 مرة من WaveGrad و28.6 مرة من DiffWave). نُطلق كودنا على الرابط: https://github.com/tencent-ailab/bddm.