تحسين الكلام وإزالة الصدى باستخدام نماذج التوليد القائمة على الانتشار

في هذا العمل، نبني على نشرتنا السابقة ونستخدم نماذج توليدية تعتمد على الانتشار لتحسين الكلام. نقدم مراجعة تفصيلية للعملية الانتشارية التي تستند إلى معادلة تفاضلية عشوائية ونتعمق في فحص نظري شامل لآثارها. بخلاف المهام التوليدية المشروطة المعتادة، لا نبدأ العملية العكسية من الضوضاء الغاوسية النقيّة بل من خليط من الكلام الملوث والضوضاء الغاوسية. هذا يتوافق مع عملية التقدم لدينا التي تنتقل من الكلام النقي إلى الكلام الملوث بإضافة حد انجراف (drift term). نظهر أن هذه الإجراءات تمكّننا من استخدام 30 خطوة انتشار فقط لإنتاج تقديرات عالية الجودة للكلام النقي. عن طريق تعديل هندسة الشبكة، نتمكن من تحسين أداء تحسين الكلام بشكل كبير، مما يشير إلى أن الشبكة، وليس الصيغة الرسمية، كانت القيد الرئيسي في نهجنا الأصلي. في تقييم متقاطع شامل عبر مجموعة بيانات مختلفة، نظهر أن الطريقة المعززة يمكن أن تنافس النماذج التمييزية الحديثة وتحقق تعميمًا أفضل عند التقييم على مكتبة مختلفة عن تلك المستخدمة في التدريب. نكمل النتائج بتقييم آلاتي باستخدام تسجيلات ضوضائية حقيقية وتجربة الاستماع، حيث يتم تصنيف طريقة المقترحة بأنها الأفضل. فحص تركيبات العينة المختلفة لحل العملية العكسية يسمح لنا بتوازن بين أداء الطريقة المقترحة وسرعتها الحسابية. بالإضافة إلى ذلك، نظهر أن الطريقة المقترحة أيضًا مناسبة لإزالة الصدى وبالتالي ليست مقتصرة على إزالة الضوضاء الخلفية الإضافية. الكود وأمثلة الصوت متاحة عبر الإنترنت، راجع https://github.com/sp-uhh/sgmse