MossFormer2: دمج التحويلة مع الشبكة التكرارية الخالية من RNN لتحسين الفصل الصوتي الأحادي في المجال الزمني

لقد حقق نموذج موس فورمر (MossFormer) الذي اقترحناه سابقًا أداءً واعدًا في فصل الكلام أحادي القناة. ومع ذلك، يعتمد هذا النموذج بشكل رئيسي على وحدة موس فورمر القائمة على الانتباه الذاتي (self-attention)، والتي تميل إلى التركيز على الاعتماديات الطويلة المدى والمتعددة المقياس، مع وجود نقص في القدرة على نمذجة أنماط تكرارية دقيقة المقياس بشكل فعّال. في هذه الورقة، نقدّم نموذجًا هجينًا جديدًا يتمتع بإمكانية نمذجة كل من الاعتماديات الطويلة المدى والمتعددة المقياس، بالإضافة إلى الأنماط التكرارية الدقيقة المقياس، وذلك من خلال دمج وحدة تكرارية في إطار موس فورمر. بدلًا من استخدام الشبكات العصبية التكرارية التقليدية (RNNs) التي تعتمد على الاتصالات التكرارية، نقدم وحدة تكرارية قائمة على شبكة الذاكرة التسلسلية المُغذاة أماميًا (FSMN)، والتي تُعتبر شبكة "بدون RNN" نظرًا لقدرتها على التقاط الأنماط التكرارية دون الحاجة إلى اتصالات تكرارية. تتكوّن وحدتنا التكرارية أساسًا من كتلة FSMN محسّنة باستخدام وحدات تلافيفية مُحددة (GCU) واتصالات كثيفة. علاوة على ذلك، تم إضافة طبقتين: طبقة ضيقة (bottleneck layer) وطبقة إخراج (output layer)، لضبط تدفق المعلومات. تعتمد الوحدة التكرارية على التصوير الخطي والتحولات التلافيفية لضمان معالجة سلسة ومتوازية لجميع التسلسلات. يُظهر النموذج الهجين المُدمج، موس فورمر2، تحسينات ملحوظة مقارنةً بموس فورمر، ويتفوّق على الطرق المتقدمة الأخرى في معايير التقييم WSJ0-2/3mix وLibri2Mix وWHAM!/WHAMR! (https://github.com/modelscope/ClearerVoice-Studio).