شبكة LSTM لتحويل الإشارات المزدوجة لقمع الضوضاء في الزمن الحقيقي

يُقدّم هذا البحث شبكة LSTM ذات تحويل إشارة مزدوجة (DTLN) لتحسين الصوت في الوقت الفعلي، كجزء من مسابقة التقليل العميق من الضوضاء (DNS-Challenge). يعتمد هذا النهج على دمج تحويل فورييه على المدى القصير (STFT) مع قاعدة تحليل وتركيب مُتعلّمة ضمن نموذج شبكي متسلسل، بحد أقصى لعدد معاملات أقل من مليون معامل. تم تدريب النموذج على 500 ساعة من البيانات الصوتية المُشوشة التي قدمها منظمو المسابقة. ويُظهر النموذج قدرة على المعالجة في الوقت الفعلي (إدخال إطار واحد، وإخراج إطار واحد)، ويحقق نتائج تنافسية. ويعزز دمج هذين النوعين من تحويل الإشارات من قدرة DTLN على استخراج المعلومات بشكل موثوق من طيف المقدار، ودمج معلومات الطور من قاعدة الميزات المُتعلّمة. ويُظهر الأداء المتميز على مستوى الحد الأقصى، ويتفوق على النموذج الأساسي لمسابقة DNS-Challenge بمقدار 0.24 نقطة مطلقة من حيث متوسط تقييم الرأي (MOS).