HyperAIHyperAI

Command Palette

Search for a command to run...

التقدير الصريح لمagnitude و phase spectra بشكل متوازي لتحسين الكلام بجودة عالية

Ye-Xin Lu Yang Ai Zhen-Hua Ling

الملخص

المعلومات الطورية لها تأثير كبير على جودة الإدراك الصوتي وفهومة الكلام. ومع ذلك، تواجه طرق تعزيز الكلام الحالية تحديات في تقدير الطور بشكل صريح بسبب طبيعته غير الهيكلية وخواص التغليف (wrapping) الخاصة به، مما يؤدي إلى عقبة في تحسين جودة الكلام. لتجاوز هذه المشكلة، اقترحنا في هذا البحث شبكة MP-SENet، وهي شبكة جديدة لتعزيز الكلام تقوم بتعزيز الطيف المقداري والطيف الطوري بشكل متوازي. تتكون الشبكة المقترحة MP-SENet من هندسة مدمجة لمُشفِّر ومُفكِّك تحتوي على متحولات (Transformers). الهدف من المُشفِّر هو ترميز الطيف المقداري والطوري المشوه للإدخال إلى تمثيلات زمنية-ترددية، والتي يتم إدخالها بعد ذلك إلى متحولات زمنية-ترددية لالتقاط الارتباطات الزمنية والترددية بدقة. يتألف المُفكِّك من مُفكِّك قناع المقدار ومُفكِّك الطور، حيث يقوم بتعزيز الطيف المقداري والطيف الطوري المشوه مباشرة من خلال دمج هندسة قناع المقدار وهندسة تقدير الطور المتوازي. تم تبني دوال خسارة متعددة المستويات محددة صراحةً على الأطياف المقدارية والأطياف الطورية المشوهة والأطياف المعقدة قصيرة الأمد لتدريب نموذج MP-SENet بشكل مشترك. تم استخدام تمييز مقاييس إضافي لتعويض عدم الارتباط الكامل بين هذه الخسائر والإدراك السمعي البشري. أظهرت النتائج التجريبية أن شبكتنا المقترحة MP-SENet تحقق أداءً رائدًا في عدة مهام لتعزيز الكلام، بما في ذلك تنقية الكلام من الضوضاء، وإزالة الرنين (dereverberation)، وتوسيع نطاق التردد. بالمقارنة مع طرق تعزيز الكلام الحساسة للطور الموجودة حاليًا، فإنها تعمل على تخفيف التأثير التعويذي بين المقدار والطور من خلال تقدير الطور بشكل صريح، مما يرفع جودة الإدراك للكلام المعزز.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التقدير الصريح لمagnitude و phase spectra بشكل متوازي لتحسين الكلام بجودة عالية | مستندات | HyperAI