HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف آليات الانتباه الذاتي لفصل الصوت

Cem Subakan Mirco Ravanelli Samuele Cornell Francois Grondin Mirko Bronzi

الملخص

أدت نماذج الترانسفورمر إلى تحسينات مذهلة في التعلم العميق. فهي غالبًا ما تتفوق على النماذج التكرارية والترشيحية في العديد من المهام، مع الاستفادة من المعالجة المتوازية. في الآونة الأخيرة، قمنا بطرح نموذج SepFormer، الذي حقق أداءً متقدمًا للغاية في فصل الصوت باستخدام مجموعات بيانات WSJ0-2/3 Mix. تتناول هذه الورقة دراسة معمقة لتطبيقات نماذج الترانسفورمر في فصل الصوت. وبشكل خاص، نوسع نتائجنا السابقة حول نموذج SepFormer من خلال تقديم نتائج على مجموعات بيانات أكثر تحديًا تتضمن ضوضاء وانعكاسات صوتية، مثل LibriMix وWHAM! وWHAMR!. بالإضافة إلى ذلك، نوسع نموذجنا لتنفيذ مهام تحسين الصوت، ونقدم أدلة تجريبية على مهام إزالة الضوضاء وإزالة الانعكاسات الصوتية. وأخيرًا، نستكشف لأول مرة في مجال فصل الصوت استخدام آليات انتباه ذاتية فعالة مثل Linformers وLonformers وReFormers. ووجدنا أن هذه الآليات تقلل بشكل كبير من متطلبات الذاكرة. على سبيل المثال، نُظهر أن انتباه نموذج Reformer يتفوق على نموذج Conv-TasNet الشهير في مجموعة بيانات WSJ0-2Mix، مع كونه أسرع في التنبؤ (inference) ومتقاربًا من حيث استهلاك الذاكرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp