HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه هو كل ما تحتاجه في فصل الصوت

Cem Subakan Mirco Ravanelli Samuele Cornell Mirko Bronzi Jianyuan Zhong

الملخص

لقد كانت الشبكات العصبية التكرارية (RNNs) هي البنية المهيمنة في التعلم من التسلسل إلى التسلسل لفترة طويلة. ومع ذلك، فإن RNNs نماذج تسلسلية بطبيعتها، ولا تسمح بتوازي العمليات الحسابية فيها. في المقابل، تبرز نماذج "المحولات" (Transformers) كبديل طبيعي للنماذج القياسية من RNNs، حيث تحل محل العمليات التكرارية بآلية انتباه متعددة الرؤوس. في هذه الورقة، نقترح نموذج SepFormer، وهو شبكة عصبية قائمة على المحولات وحيدة من نوع RNN، مخصصة لفصل الصوت. يتعلم نموذج SepFormer الاعتماديات القصيرة والطويلة المدى باستخدام نهج متعدد المقاييس يعتمد على المحولات. ويحقق النموذج المقترح أداءً متميزًا (SOTA) على مجموعات البيانات القياسية WSJ0-2/3mix، حيث يصل إلى قيمة SI-SNRi قدرها 22.3 ديسيبل على WSJ0-2mix، و19.5 ديسيبل على WSJ0-3mix. وتمتاز SepFormer بامتلاكها لمزايا التوازي الخاصة بمحولات، وتُظهر أداءً تنافسيًا حتى عند تقليل حجم التمثيل المُشفر بنسبة 8. وبالتالي، فإنها أسرع بشكل ملحوظ وأقل استهلاكًا للذاكرة مقارنة بالنظم الحديثة لفصل الصوت ذات الأداء المماثل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp