استكشاف آليات الانتباه الذاتي لفصل الصوت

أدت نماذج الترانسفورمر إلى تحسينات مذهلة في التعلم العميق. فهي غالبًا ما تتفوق على النماذج التكرارية والترشيحية في العديد من المهام، مع الاستفادة من المعالجة المتوازية. في الآونة الأخيرة، قمنا بطرح نموذج SepFormer، الذي حقق أداءً متقدمًا للغاية في فصل الصوت باستخدام مجموعات بيانات WSJ0-2/3 Mix. تتناول هذه الورقة دراسة معمقة لتطبيقات نماذج الترانسفورمر في فصل الصوت. وبشكل خاص، نوسع نتائجنا السابقة حول نموذج SepFormer من خلال تقديم نتائج على مجموعات بيانات أكثر تحديًا تتضمن ضوضاء وانعكاسات صوتية، مثل LibriMix وWHAM! وWHAMR!. بالإضافة إلى ذلك، نوسع نموذجنا لتنفيذ مهام تحسين الصوت، ونقدم أدلة تجريبية على مهام إزالة الضوضاء وإزالة الانعكاسات الصوتية. وأخيرًا، نستكشف لأول مرة في مجال فصل الصوت استخدام آليات انتباه ذاتية فعالة مثل Linformers وLonformers وReFormers. ووجدنا أن هذه الآليات تقلل بشكل كبير من متطلبات الذاكرة. على سبيل المثال، نُظهر أن انتباه نموذج Reformer يتفوق على نموذج Conv-TasNet الشهير في مجموعة بيانات WSJ0-2Mix، مع كونه أسرع في التنبؤ (inference) ومتقاربًا من حيث استهلاك الذاكرة.