HyperAIHyperAI

Command Palette

Search for a command to run...

MossFormer: دفع حد الأداء لفصل الصوت أحادي القناة باستخدام مُحَوِّل مُعَمَّق بمحول رأس واحد مع انتباه ذاتي مُشترك مُعزز بالتحويلات التلافيفية

Shengkui Zhao Bin Ma

الملخص

قدّمت النماذج المستندة إلى Transformer تحسينات كبيرة في أداء فصل الكلام الأحادي القناة. ومع ذلك، لا يزال هناك فجوة في الأداء مقارنة بالحد الأقصى المُقترح حديثًا. إن أبرز قيد في النماذج الحالية ذات المسار المزدوج (dual-path) التي تعتمد على Transformer هو عدم كفاءة نمذجة التفاعلات الطويلة المدى بين العناصر والأنماط المكانية المحلية. في هذا العمل، نحقق الحد الأقصى من الأداء من خلال اقتراح بنية جديدة تُسمى "MossFormer" (مُنَوَّرَة فصل الكلام الأحادي)، وهي بنية مُحَدَّدة بـ "Transformer" ذات رأس واحد مع انتباه ذاتي مُعزز بالتحويلات (convolution-augmented joint self-attentions). لحل التفاعلات غير المباشرة بين العناصر عبر الكتل (chunks) في البنية ذات المسار المزدوج بشكل فعّال، تستخدم MossFormer بنية انتباه ذاتي مُشتركة تُنفّذ في آنٍ واحد انتباهًا ذاتيًا كامل الحساب على الكتل المحلية، وانتباهًا ذاتيًا مُبسَّطًا وذو تكلفة منخفضة على التسلسل الكامل. يمكّن هذا الانتباه المشترك النموذج من التفاعل المباشر بين جميع العناصر في التسلسل الكامل. علاوةً على ذلك، نستخدم آلية توجيه مُنتبهة قوية تُستخدم مع انتباه ذاتي مُبسط بـ "رأس واحد". وبالإضافة إلى نمذجة التفاعلات الطويلة المدى المُنتبهة، نُعدّل MossFormer بتحويلات تُستخدم لنمذجة الأنماط المكانية المحلية في كل نقطة. نتيجة لذلك، تتفوّق MossFormer على النماذج السابقة وتُحقّق أفضل النتائج المُحقّقة حتى الآن على معايير WSJ0-2/3mix وWHAM!/WHAMR!، حيث تحقق MossFormer الحد الأقصى لمؤشر SI-SDRi البالغ 21.2 ديسيبل على WSJ0-3mix، وتفصل بفارق 0.3 ديسيبل فقط عن الحد الأقصى البالغ 23.1 ديسيبل على WSJ0-2mix.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp