الانتباه هو كل ما تحتاجه في فصل الصوت

لقد كانت الشبكات العصبية التكرارية (RNNs) هي البنية المهيمنة في التعلم من التسلسل إلى التسلسل لفترة طويلة. ومع ذلك، فإن RNNs نماذج تسلسلية بطبيعتها، ولا تسمح بتوازي العمليات الحسابية فيها. في المقابل، تبرز نماذج "المحولات" (Transformers) كبديل طبيعي للنماذج القياسية من RNNs، حيث تحل محل العمليات التكرارية بآلية انتباه متعددة الرؤوس. في هذه الورقة، نقترح نموذج SepFormer، وهو شبكة عصبية قائمة على المحولات وحيدة من نوع RNN، مخصصة لفصل الصوت. يتعلم نموذج SepFormer الاعتماديات القصيرة والطويلة المدى باستخدام نهج متعدد المقاييس يعتمد على المحولات. ويحقق النموذج المقترح أداءً متميزًا (SOTA) على مجموعات البيانات القياسية WSJ0-2/3mix، حيث يصل إلى قيمة SI-SNRi قدرها 22.3 ديسيبل على WSJ0-2mix، و19.5 ديسيبل على WSJ0-3mix. وتمتاز SepFormer بامتلاكها لمزايا التوازي الخاصة بمحولات، وتُظهر أداءً تنافسيًا حتى عند تقليل حجم التمثيل المُشفر بنسبة 8. وبالتالي، فإنها أسرع بشكل ملحوظ وأقل استهلاكًا للذاكرة مقارنة بالنظم الحديثة لفصل الصوت ذات الأداء المماثل.