HyperAIHyperAI
منذ 3 أشهر

تعزيز التضمينات ذاتية التعلّم لتحسين الصوت

Kuo-Hsuan Hung, Szu-wei Fu, Huan-Hsin Tseng, Hsin-Tien Chiang, Yu Tsao, Chii-Wann Lin
تعزيز التضمينات ذاتية التعلّم لتحسين الصوت
الملخص

لقد حققت تمثيلات التعلم ذاتيًا (SSL) للصوت أداءً متقدمًا جدًا (SOTA) في عدة مهام تطبيقية لاحقة. ومع ذلك، لا يزال هناك مجال للتحسين في مهام تحسين الصوت (SE). في هذه الدراسة، استخدمنا ميزة عابرة للنطاق لحل المشكلة التي قد تعاني منها تمثيلات SSL بسبب نقص المعلومات الدقيقة اللازمة لإعادة إنتاج إشارات الصوت. وبدمج تمثيل SSL مع الطيفية (spectrogram)، تمكّننا من تحقيق تحسن ملحوظ في الأداء. كما قمنا بدراسة العلاقة بين مقاومة تمثيلات SSL للضوضاء، المقيسة عبر مسافة النظافة-الضوضاء (CN distance)، ودرجة الأهمية للطبقات في مهام تحسين الصوت. ونتيجة لذلك، وجدنا أن تمثيلات SSL ذات مقاومة أقل للضوضاء تكون أكثر أهمية. علاوةً على ذلك، أظهرت تجاربنا على مجموعة بيانات VCTK-DEMAND أن عملية التحسين الدقيق (fine-tuning) لتمثيل SSL باستخدام نموذج تحسين الصوت يمكن أن تتفوق على أفضل الطرق القائمة على SSL في مؤشرات PESQ وCSIG وCOVL، دون الحاجة إلى استخدام هياكل شبكات معقدة. وفي التجارب اللاحقة، لوحظ ارتفاع مسافة CN في تمثيلات SSL بعد عملية التحسين الدقيق. وتؤكد هذه النتائج توقعاتنا، وقد تساعد في تصميم تدريبات مستقبلية لتمثيلات SSL ذات صلة بتحسين الصوت.