DCCRN: شبكة عميقة معقدة ل convolution والدورة لتحسين الصوت المعتمد على الطور

لقد استفادت معالجة الكلام من نجاح التعلم العميق من حيث الوضوح والجودة الإدراكية. تركز الطرق التقليدية في مجال الزمن-التردد (TF) على توقع أقنعة TF أو الطيف الصوتي، باستخدام شبكة عصبية تلافيفية بسيطة (CNN) أو شبكة عصبية متكررة (RNN). وتشير بعض الدراسات الحديثة إلى استخدام الطيف المعقد كهدف للتدريب، لكنها تُدرّب في شبكة حقيقية، وتتنبأ بمركبة المقدار والطور أو الجزء الحقيقي والجزء التخيلي على التوالي. وبشكل خاص، يدمج الشبكة التلافيفية المتكررة (CRN) هيكلًا مكوّنًا من مشغل تشفير-فك تشفير تلافيفي (CED) وذاكرة طويلة قصيرة الأجل (LSTM)، والذي ثبت أنه مفيد جدًا للتعامل مع الأهداف المعقدة. ولتمكين التدريب على الهدف المعقد بشكل أكثر فعالية، قمنا في هذه الورقة بتصميم هيكل شبكة جديد يحاكي العمليات العقدية، يُسمى الشبكة التلافيفية المتكررة العميقة المعقدة (DCCRN)، حيث يمكن لكل من الهياكل التلافيفية (CNN) والمتكررة (RNN) التعامل مع العمليات المعقدة. وقد أظهرت النماذج المقترحة من DCCRN تفوقًا كبيرًا مقارنة بالشبكات السابقة، سواء من حيث المقاييس الموضوعية أو الذاتية. وباستخدام فقط 3.7 مليون معلمة، تقدمت نماذج DCCRN الخاصة بنا في مسابقة تثبيط الضوضاء العميقة (DNS) لمؤتمر Interspeech 2020، واحتلت المرتبة الأولى في المسار الزمني الفعلي والمرتبة الثانية في المسار غير الزمني الفعلي من حيث متوسط تقييم الرأي (MOS).