HyperAIHyperAI

Command Palette

Search for a command to run...

UNET الكثيفة ذات الانتباه القناتي لتحسين الصوت متعدد القنوات

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

الملخص

لقد اكتسب التعلم العميق المُشرف اهتمامًا كبيرًا مؤخرًا في مجال تحسين الصوت. تؤدي أفضل الأساليب القائمة على التعلم العميق المهمة من خلال تعلم قناع نسبي/ثنائي يتم تطبيقه على الخليط في المجال الزمني-التكراري لإنتاج الصوت النقي. وعلى الرغم من الأداء المتميز في البيئة أحادية القناة، فإن هذه الأطر تُظهر أداءً أقل في البيئة متعددة القنوات، وذلك لأن معظم هذه الأساليب: أ) لا تستغل المعلومات المكانية المتاحة بشكل كامل، و ب) لا تزال تتعامل مع البنية العميقة كصندوق أسود، وهو ما قد لا يكون مناسبًا جيدًا لمعالجة الصوت متعدد القنوات. تتناول هذه الورقة هذه العيوب من خلال: أ) استخدام قناع النسبة المعقدة بدلًا من القناع المطبق على المقدار الطيفي، وبشكل أكثر أهمية، ب) إدخال آلية انتباه القناة داخل البنية العميقة لتقلّد آلية التوجيه (Beamforming). ونُقدّم نموذج Channel-Attention Dense U-Net، حيث نطبّق وحدة انتباه القناة بشكل متكرر على خرائط الميزات في كل طبقة من طبقات الشبكة، مما يمكّن الشبكة من تنفيذ توجيه غير خطي. ونُظهر تفوق أداء الشبكة مقارنة بالأساليب الرائدة في المجال على مجموعة بيانات CHiME-3.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp