تحسين الصوت الأحادي الفعلي الزمن مع تحويل كوسينوس التوقيت القصير

تم تحسين خوارزميات تحسين الكلام المستندة إلى التعلم العميق بشكل كبير من حيث وضوح الكلام ونوعية الإدراك. وتركز العديد من الطرق على تحسين الطيف المقدار (amplitude spectrum) مع إعادة بناء الكلام باستخدام الطيف الطوري (phase) للإدخال المختلط. وبما أن الطيف الطوري النقي يُعد مهمًا جدًا وصعب التنبؤ به، فإن أداء هذه الطرق يكون محدودًا. حاول بعض الباحثين تقدير الطيف الطوري بشكل مباشر أو غير مباشر، لكن النتائج لم تكن مرضية. في الآونة الأخيرة، اقترح بعض الدراسات نماذج ذات أعداد معقدة (complex-valued models) وحققت أداءً متميزًا، مثل الشبكة العميقة ذات التحويل التكراري المعقد (DCCRN). ومع ذلك، فإن حسابات هذه النماذج كبيرة جدًا من حيث التعقيد. ولتقليل التعقيد وتحسين الأداء بشكل أكبر، نقترح في هذه الورقة طريقة جديدة تستخدم تحويل جيب التمام المتقطع (Discrete Cosine Transform) كمدخل، ونطلق عليها اسم الشبكة العميقة ذات تحويل جيب التمام التبادلي التكراري (DCTCRN). أظهرت النتائج التجريبية أن DCTCRN تحقق أداءً متميزًا من حيث المقاييس الموضوعية والذاتية. مقارنةً بالإدخال المختلط الضوضائي، زاد متوسط تقييم الرأي (MOS) بمقدار 0.46 (من 2.86 إلى 3.32) بشكل مطلق، مع استخدام فقط 2.86 مليون معلمة.