HyperAIHyperAI
منذ 17 أيام

UNET الكثيفة ذات الانتباه القناتي لتحسين الصوت متعدد القنوات

Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh Krishnaswamy
UNET الكثيفة ذات الانتباه القناتي لتحسين الصوت متعدد القنوات
الملخص

لقد اكتسب التعلم العميق المُشرف اهتمامًا كبيرًا مؤخرًا في مجال تحسين الصوت. تؤدي أفضل الأساليب القائمة على التعلم العميق المهمة من خلال تعلم قناع نسبي/ثنائي يتم تطبيقه على الخليط في المجال الزمني-التكراري لإنتاج الصوت النقي. وعلى الرغم من الأداء المتميز في البيئة أحادية القناة، فإن هذه الأطر تُظهر أداءً أقل في البيئة متعددة القنوات، وذلك لأن معظم هذه الأساليب: أ) لا تستغل المعلومات المكانية المتاحة بشكل كامل، و ب) لا تزال تتعامل مع البنية العميقة كصندوق أسود، وهو ما قد لا يكون مناسبًا جيدًا لمعالجة الصوت متعدد القنوات. تتناول هذه الورقة هذه العيوب من خلال: أ) استخدام قناع النسبة المعقدة بدلًا من القناع المطبق على المقدار الطيفي، وبشكل أكثر أهمية، ب) إدخال آلية انتباه القناة داخل البنية العميقة لتقلّد آلية التوجيه (Beamforming). ونُقدّم نموذج Channel-Attention Dense U-Net، حيث نطبّق وحدة انتباه القناة بشكل متكرر على خرائط الميزات في كل طبقة من طبقات الشبكة، مما يمكّن الشبكة من تنفيذ توجيه غير خطي. ونُظهر تفوق أداء الشبكة مقارنة بالأساليب الرائدة في المجال على مجموعة بيانات CHiME-3.