HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز التضمينات ذاتية التعلّم لتحسين الصوت

Kuo-Hsuan Hung Szu-wei Fu Huan-Hsin Tseng Hsin-Tien Chiang Yu Tsao Chii-Wann Lin

الملخص

لقد حققت تمثيلات التعلم ذاتيًا (SSL) للصوت أداءً متقدمًا جدًا (SOTA) في عدة مهام تطبيقية لاحقة. ومع ذلك، لا يزال هناك مجال للتحسين في مهام تحسين الصوت (SE). في هذه الدراسة، استخدمنا ميزة عابرة للنطاق لحل المشكلة التي قد تعاني منها تمثيلات SSL بسبب نقص المعلومات الدقيقة اللازمة لإعادة إنتاج إشارات الصوت. وبدمج تمثيل SSL مع الطيفية (spectrogram)، تمكّننا من تحقيق تحسن ملحوظ في الأداء. كما قمنا بدراسة العلاقة بين مقاومة تمثيلات SSL للضوضاء، المقيسة عبر مسافة النظافة-الضوضاء (CN distance)، ودرجة الأهمية للطبقات في مهام تحسين الصوت. ونتيجة لذلك، وجدنا أن تمثيلات SSL ذات مقاومة أقل للضوضاء تكون أكثر أهمية. علاوةً على ذلك، أظهرت تجاربنا على مجموعة بيانات VCTK-DEMAND أن عملية التحسين الدقيق (fine-tuning) لتمثيل SSL باستخدام نموذج تحسين الصوت يمكن أن تتفوق على أفضل الطرق القائمة على SSL في مؤشرات PESQ وCSIG وCOVL، دون الحاجة إلى استخدام هياكل شبكات معقدة. وفي التجارب اللاحقة، لوحظ ارتفاع مسافة CN في تمثيلات SSL بعد عملية التحسين الدقيق. وتؤكد هذه النتائج توقعاتنا، وقد تساعد في تصميم تدريبات مستقبلية لتمثيلات SSL ذات صلة بتحسين الصوت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp