منذ 15 أيام

MossFormer: دفع حد الأداء لفصل الصوت أحادي القناة باستخدام مُحَوِّل مُعَمَّق بمحول رأس واحد مع انتباه ذاتي مُشترك مُعزز بالتحويلات التلافيفية

Shengkui Zhao, Bin Ma

الملخص

قدّمت النماذج المستندة إلى Transformer تحسينات كبيرة في أداء فصل الكلام الأحادي القناة. ومع ذلك، لا يزال هناك فجوة في الأداء مقارنة بالحد الأقصى المُقترح حديثًا. إن أبرز قيد في النماذج الحالية ذات المسار المزدوج (dual-path) التي تعتمد على Transformer هو عدم كفاءة نمذجة التفاعلات الطويلة المدى بين العناصر والأنماط المكانية المحلية. في هذا العمل، نحقق الحد الأقصى من الأداء من خلال اقتراح بنية جديدة تُسمى "MossFormer" (مُنَوَّرَة فصل الكلام الأحادي)، وهي بنية مُحَدَّدة بـ "Transformer" ذات رأس واحد مع انتباه ذاتي مُعزز بالتحويلات (convolution-augmented joint self-attentions). لحل التفاعلات غير المباشرة بين العناصر عبر الكتل (chunks) في البنية ذات المسار المزدوج بشكل فعّال، تستخدم MossFormer بنية انتباه ذاتي مُشتركة تُنفّذ في آنٍ واحد انتباهًا ذاتيًا كامل الحساب على الكتل المحلية، وانتباهًا ذاتيًا مُبسَّطًا وذو تكلفة منخفضة على التسلسل الكامل. يمكّن هذا الانتباه المشترك النموذج من التفاعل المباشر بين جميع العناصر في التسلسل الكامل. علاوةً على ذلك، نستخدم آلية توجيه مُنتبهة قوية تُستخدم مع انتباه ذاتي مُبسط بـ "رأس واحد". وبالإضافة إلى نمذجة التفاعلات الطويلة المدى المُنتبهة، نُعدّل MossFormer بتحويلات تُستخدم لنمذجة الأنماط المكانية المحلية في كل نقطة. نتيجة لذلك، تتفوّق MossFormer على النماذج السابقة وتُحقّق أفضل النتائج المُحقّقة حتى الآن على معايير WSJ0-2/3mix وWHAM!/WHAMR!، حيث تحقق MossFormer الحد الأقصى لمؤشر SI-SDRi البالغ 21.2 ديسيبل على WSJ0-3mix، وتفصل بفارق 0.3 ديسيبل فقط عن الحد الأقصى البالغ 23.1 ديسيبل على WSJ0-2mix.