HyperAIHyperAI
منذ 17 أيام

شبكة LSTM لتحويل الإشارات المزدوجة لقمع الضوضاء في الزمن الحقيقي

Nils L. Westhausen, Bernd T. Meyer
شبكة LSTM لتحويل الإشارات المزدوجة لقمع الضوضاء في الزمن الحقيقي
الملخص

يُقدّم هذا البحث شبكة LSTM ذات تحويل إشارة مزدوجة (DTLN) لتحسين الصوت في الوقت الفعلي، كجزء من مسابقة التقليل العميق من الضوضاء (DNS-Challenge). يعتمد هذا النهج على دمج تحويل فورييه على المدى القصير (STFT) مع قاعدة تحليل وتركيب مُتعلّمة ضمن نموذج شبكي متسلسل، بحد أقصى لعدد معاملات أقل من مليون معامل. تم تدريب النموذج على 500 ساعة من البيانات الصوتية المُشوشة التي قدمها منظمو المسابقة. ويُظهر النموذج قدرة على المعالجة في الوقت الفعلي (إدخال إطار واحد، وإخراج إطار واحد)، ويحقق نتائج تنافسية. ويعزز دمج هذين النوعين من تحويل الإشارات من قدرة DTLN على استخراج المعلومات بشكل موثوق من طيف المقدار، ودمج معلومات الطور من قاعدة الميزات المُتعلّمة. ويُظهر الأداء المتميز على مستوى الحد الأقصى، ويتفوق على النموذج الأساسي لمسابقة DNS-Challenge بمقدار 0.24 نقطة مطلقة من حيث متوسط تقييم الرأي (MOS).

شبكة LSTM لتحويل الإشارات المزدوجة لقمع الضوضاء في الزمن الحقيقي | أحدث الأوراق البحثية | HyperAI