HyperAIHyperAI
منذ 17 أيام

نقل الانتباه متعدد المقاييس لتحسين كفاءة الكلام

Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, Sung Won Han
نقل الانتباه متعدد المقاييس لتحسين كفاءة الكلام
الملخص

أظهرت النماذج الحديثة القائمة على التعلم العميق أداءً عاليًا في تحسين الصوت؛ ومع ذلك، لا يزال من الصعب الحصول على نموذج سريع وذو تعقيد منخفض دون انخفاض ملحوظ في الأداء. لم تتمكن الدراسات السابقة حول التعلم بالاستيعاب (Knowledge Distillation) في مجال تحسين الصوت من حل هذه المشكلة، لأن طرق استخلاص المخرجات التي استخدمتها لا تتماشى مع مهام تحسين الصوت من حيث بعض الجوانب. في هذه الدراسة، نقترح طريقة نقل الانتباه متعدد المقاييس (MV-AT)، وهي طريقة استيعاب تعتمد على السمات، لاستخلاص نماذج فعالة لتحسين الصوت في المجال الزمني. استنادًا إلى نموذج استخلاص السمات متعددة المقاييس، تقوم MV-AT بنقل المعرفة متعددة المقاييس من الشبكة المعلمة (الأساتذة) إلى الشبكة المتعلم (الطلاب) دون إضافة أي معلمات إضافية. أظهرت النتائج التجريبية أن الطريقة المقترحة قد عززت بشكل مستمر أداء النماذج الطلابية المختلفة الأحجام على مجموعتي بيانات فالنتيني وDNS (Deep Noise Suppression). وقد حقق النموذج الخفيف MANNER-S-8.1GF باستخدام الطريقة المقترحة، الذي صُمّم لDeployment فعّال، تقليلًا بنسبة 15.4 مرة في عدد المعلمات، وبنسبة 4.71 مرة في العمليات العائمة النقطية (FLOPs)، مقارنة بالنموذج الأساسي، مع الحفاظ على أداء مشابه.