HyperAIHyperAI

Command Palette

Search for a command to run...

MossFormer2: دمج التحويلة مع الشبكة التكرارية الخالية من RNN لتحسين الفصل الصوتي الأحادي في المجال الزمني

Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou Jiaqi Yip Dianwen Ng Bin Ma

الملخص

لقد حقق نموذج موس فورمر (MossFormer) الذي اقترحناه سابقًا أداءً واعدًا في فصل الكلام أحادي القناة. ومع ذلك، يعتمد هذا النموذج بشكل رئيسي على وحدة موس فورمر القائمة على الانتباه الذاتي (self-attention)، والتي تميل إلى التركيز على الاعتماديات الطويلة المدى والمتعددة المقياس، مع وجود نقص في القدرة على نمذجة أنماط تكرارية دقيقة المقياس بشكل فعّال. في هذه الورقة، نقدّم نموذجًا هجينًا جديدًا يتمتع بإمكانية نمذجة كل من الاعتماديات الطويلة المدى والمتعددة المقياس، بالإضافة إلى الأنماط التكرارية الدقيقة المقياس، وذلك من خلال دمج وحدة تكرارية في إطار موس فورمر. بدلًا من استخدام الشبكات العصبية التكرارية التقليدية (RNNs) التي تعتمد على الاتصالات التكرارية، نقدم وحدة تكرارية قائمة على شبكة الذاكرة التسلسلية المُغذاة أماميًا (FSMN)، والتي تُعتبر شبكة "بدون RNN" نظرًا لقدرتها على التقاط الأنماط التكرارية دون الحاجة إلى اتصالات تكرارية. تتكوّن وحدتنا التكرارية أساسًا من كتلة FSMN محسّنة باستخدام وحدات تلافيفية مُحددة (GCU) واتصالات كثيفة. علاوة على ذلك، تم إضافة طبقتين: طبقة ضيقة (bottleneck layer) وطبقة إخراج (output layer)، لضبط تدفق المعلومات. تعتمد الوحدة التكرارية على التصوير الخطي والتحولات التلافيفية لضمان معالجة سلسة ومتوازية لجميع التسلسلات. يُظهر النموذج الهجين المُدمج، موس فورمر2، تحسينات ملحوظة مقارنةً بموس فورمر، ويتفوّق على الطرق المتقدمة الأخرى في معايير التقييم WSJ0-2/3mix وLibri2Mix وWHAM!/WHAMR! (https://github.com/modelscope/ClearerVoice-Studio).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp