HyperAIHyperAI
منذ 4 أشهر

التقدير الصريح لمagnitude و phase spectra بشكل متوازي لتحسين الكلام بجودة عالية

Lu, Ye-Xin ; Ai, Yang ; Ling, Zhen-Hua
التقدير الصريح لمagnitude و phase spectra بشكل متوازي لتحسين الكلام بجودة عالية
الملخص

المعلومات الطورية لها تأثير كبير على جودة الإدراك الصوتي وفهومة الكلام. ومع ذلك، تواجه طرق تعزيز الكلام الحالية تحديات في تقدير الطور بشكل صريح بسبب طبيعته غير الهيكلية وخواص التغليف (wrapping) الخاصة به، مما يؤدي إلى عقبة في تحسين جودة الكلام. لتجاوز هذه المشكلة، اقترحنا في هذا البحث شبكة MP-SENet، وهي شبكة جديدة لتعزيز الكلام تقوم بتعزيز الطيف المقداري والطيف الطوري بشكل متوازي. تتكون الشبكة المقترحة MP-SENet من هندسة مدمجة لمُشفِّر ومُفكِّك تحتوي على متحولات (Transformers). الهدف من المُشفِّر هو ترميز الطيف المقداري والطوري المشوه للإدخال إلى تمثيلات زمنية-ترددية، والتي يتم إدخالها بعد ذلك إلى متحولات زمنية-ترددية لالتقاط الارتباطات الزمنية والترددية بدقة. يتألف المُفكِّك من مُفكِّك قناع المقدار ومُفكِّك الطور، حيث يقوم بتعزيز الطيف المقداري والطيف الطوري المشوه مباشرة من خلال دمج هندسة قناع المقدار وهندسة تقدير الطور المتوازي. تم تبني دوال خسارة متعددة المستويات محددة صراحةً على الأطياف المقدارية والأطياف الطورية المشوهة والأطياف المعقدة قصيرة الأمد لتدريب نموذج MP-SENet بشكل مشترك. تم استخدام تمييز مقاييس إضافي لتعويض عدم الارتباط الكامل بين هذه الخسائر والإدراك السمعي البشري. أظهرت النتائج التجريبية أن شبكتنا المقترحة MP-SENet تحقق أداءً رائدًا في عدة مهام لتعزيز الكلام، بما في ذلك تنقية الكلام من الضوضاء، وإزالة الرنين (dereverberation)، وتوسيع نطاق التردد. بالمقارنة مع طرق تعزيز الكلام الحساسة للطور الموجودة حاليًا، فإنها تعمل على تخفيف التأثير التعويذي بين المقدار والطور من خلال تقدير الطور بشكل صريح، مما يرفع جودة الإدراك للكلام المعزز.