HyperAIHyperAI
منذ 17 أيام

Dense-TSNet: هيكل متعدد المراحل متصل كثيفًا للتحسين الصوتي خفيف للغاية

Zizhen Lin, Yuanle Li, Junyu Wang, Ruili Li
Dense-TSNet: هيكل متعدد المراحل متصل كثيفًا للتحسين الصوتي خفيف للغاية
الملخص

تهدف تحسينات الكلام إلى تحسين جودة الكلام ووضوحه في البيئات الصاخبة. وقد ركّزت التطورات الحديثة على الشبكات العصبية العميقة، لا سيما باستخدام بنية المراحل الثنائية (Two-Stage - TS) لتعزيز استخلاص الميزات. ومع ذلك، تبقى تعقيدات هذه النماذج وحجمها كبيرًا، ما يحد من تطبيقها في السياقات التي تتميز بنقص الموارد. ويتطلب تصميم نماذج مناسبة للأجهزة الطرفية (edge devices) مجموعة من التحديات الخاصة. فغالبًا ما تواجه النماذج الخفيفة الضيقة عقبات في الأداء بسبب تضاريس الخسارة غير الموحدة. علاوةً على ذلك، قد تفتقر المشغلات المتقدمة مثل Transformers أو Mamba إلى المرونة والكفاءة العملية التي تقدمها الشبكات العصبية التلافيفية (CNNs) في التطبيقات الحقيقية. وللتغلب على هذه التحديات، نقترح Dense-TSNet، وهو شبكة تحسين صوتية خفيفة جدًا مبتكرة. ويستخدم نهجنا بنية مبتكرة تُسمى المراحل الثنائية الكثيفة (Dense-TS)، والتي، مقارنةً بالبنية الثنائية الكلاسيكية، تضمن تحسينًا أكثر متانة للدالة الهدف في المراحل اللاحقة من التدريب. وهذا يؤدي إلى أداء نهائي مُحسَّن، ويحل مشكلة التقارب المبكر التي تعاني منها النماذج الأساسية. كما نقدّم بلوك النظر المتعدد (Multi-View Gaze Block - MVGB)، الذي يعزز استخلاص الميزات من خلال دمج منظورات عالمية وقناة ومحليّة باستخدام الشبكات العصبية التلافيفية (CNNs). علاوةً على ذلك، نناقش كيف تؤثر اختيار دالة الخسارة على الجودة الواعية. وتُظهر Dense-TSNet أداءً واعدًا مع حجم نموذج صغير جدًا يبلغ حوالي 14 ألف معلمة، مما يجعلها مناسبة بشكل خاص للنشر في البيئات التي تتميز بنقص الموارد.