Command Palette
Search for a command to run...
نقل الانتباه متعدد المقاييس لتحسين كفاءة الكلام
نقل الانتباه متعدد المقاييس لتحسين كفاءة الكلام
Wooseok Shin Hyun Joon Park Jin Sob Kim Byung Hoon Lee Sung Won Han
الملخص
أظهرت النماذج الحديثة القائمة على التعلم العميق أداءً عاليًا في تحسين الصوت؛ ومع ذلك، لا يزال من الصعب الحصول على نموذج سريع وذو تعقيد منخفض دون انخفاض ملحوظ في الأداء. لم تتمكن الدراسات السابقة حول التعلم بالاستيعاب (Knowledge Distillation) في مجال تحسين الصوت من حل هذه المشكلة، لأن طرق استخلاص المخرجات التي استخدمتها لا تتماشى مع مهام تحسين الصوت من حيث بعض الجوانب. في هذه الدراسة، نقترح طريقة نقل الانتباه متعدد المقاييس (MV-AT)، وهي طريقة استيعاب تعتمد على السمات، لاستخلاص نماذج فعالة لتحسين الصوت في المجال الزمني. استنادًا إلى نموذج استخلاص السمات متعددة المقاييس، تقوم MV-AT بنقل المعرفة متعددة المقاييس من الشبكة المعلمة (الأساتذة) إلى الشبكة المتعلم (الطلاب) دون إضافة أي معلمات إضافية. أظهرت النتائج التجريبية أن الطريقة المقترحة قد عززت بشكل مستمر أداء النماذج الطلابية المختلفة الأحجام على مجموعتي بيانات فالنتيني وDNS (Deep Noise Suppression). وقد حقق النموذج الخفيف MANNER-S-8.1GF باستخدام الطريقة المقترحة، الذي صُمّم لDeployment فعّال، تقليلًا بنسبة 15.4 مرة في عدد المعلمات، وبنسبة 4.71 مرة في العمليات العائمة النقطية (FLOPs)، مقارنة بالنموذج الأساسي، مع الحفاظ على أداء مشابه.