HyperAIHyperAI
منذ 17 أيام

تحليل التباين في تحسين الصوت القائم على الانتشار

Bunlong Lay, Timo Gerkmann
تحليل التباين في تحسين الصوت القائم على الانتشار
الملخص

أثبتت نماذج الانتشار (Diffusion models) قوتها كنماذج لتحسين الكلام التوليدي. في النماذج الحديثة من نوع SGMSE+، يشمل التدريب معادلة تفاضلية عشوائية للعملية الانتشارية، حيث تُضاف إلى إشارة الكلام النظيفة بشكل تدريجي ضوضاء جauss وضوضاء بيئية. وتختلف أداء تحسين الكلام حسب اختيار المعادلة التفاضلية العشوائية التي تتحكم في تطور المتوسط والانحراف المعياري خلال عملية الانتشار عند إضافة الضوضاء البيئية والجوسية. في هذا العمل، نسلط الضوء على أن حجم الانحراف المعياري يُعد معلمة أساسية تؤثر بشكل كبير على أداء تحسين الكلام، ونُظهر أن هذه المعلمة تتحكم في التوازن بين تقليل الضوضاء وتقليل التشوهات في الكلام. وبشكل أكثر تحديدًا، نُظهر أن زيادة الانحراف المعياري تُعزز من تقليل الضوضاء وتمكّن من تقليل الحِمل الحسابي، حيث تقل الحاجة إلى عدد أكبر من التقييمات الوظيفية عند إنتاج التقدير.