HyperAIHyperAI

Command Palette

Search for a command to run...

Dense-TSNet: هيكل متعدد المراحل متصل كثيفًا للتحسين الصوتي خفيف للغاية

Zizhen Lin Yuanle Li Junyu Wang Ruili Li

الملخص

تهدف تحسينات الكلام إلى تحسين جودة الكلام ووضوحه في البيئات الصاخبة. وقد ركّزت التطورات الحديثة على الشبكات العصبية العميقة، لا سيما باستخدام بنية المراحل الثنائية (Two-Stage - TS) لتعزيز استخلاص الميزات. ومع ذلك، تبقى تعقيدات هذه النماذج وحجمها كبيرًا، ما يحد من تطبيقها في السياقات التي تتميز بنقص الموارد. ويتطلب تصميم نماذج مناسبة للأجهزة الطرفية (edge devices) مجموعة من التحديات الخاصة. فغالبًا ما تواجه النماذج الخفيفة الضيقة عقبات في الأداء بسبب تضاريس الخسارة غير الموحدة. علاوةً على ذلك، قد تفتقر المشغلات المتقدمة مثل Transformers أو Mamba إلى المرونة والكفاءة العملية التي تقدمها الشبكات العصبية التلافيفية (CNNs) في التطبيقات الحقيقية. وللتغلب على هذه التحديات، نقترح Dense-TSNet، وهو شبكة تحسين صوتية خفيفة جدًا مبتكرة. ويستخدم نهجنا بنية مبتكرة تُسمى المراحل الثنائية الكثيفة (Dense-TS)، والتي، مقارنةً بالبنية الثنائية الكلاسيكية، تضمن تحسينًا أكثر متانة للدالة الهدف في المراحل اللاحقة من التدريب. وهذا يؤدي إلى أداء نهائي مُحسَّن، ويحل مشكلة التقارب المبكر التي تعاني منها النماذج الأساسية. كما نقدّم بلوك النظر المتعدد (Multi-View Gaze Block - MVGB)، الذي يعزز استخلاص الميزات من خلال دمج منظورات عالمية وقناة ومحليّة باستخدام الشبكات العصبية التلافيفية (CNNs). علاوةً على ذلك، نناقش كيف تؤثر اختيار دالة الخسارة على الجودة الواعية. وتُظهر Dense-TSNet أداءً واعدًا مع حجم نموذج صغير جدًا يبلغ حوالي 14 ألف معلمة، مما يجعلها مناسبة بشكل خاص للنشر في البيئات التي تتميز بنقص الموارد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp