HyperAIHyperAI

Command Palette

Search for a command to run...

xLSTM-SENet: xLSTM لتحسين الكلام أحادي القناة

Nikolai Lund Kühne Jan Østergaard Jesper Jensen Zheng-Hua Tan

الملخص

بينما تتفوق المعمارية القائمة على الانتباه، مثل مطابقات الانتباه (Conformers)، في تعزيز الكلام، فإنها تواجه تحديات مثل قابلية التوسع بالنسبة لطول سلسلة الإدخال. في المقابل، تقدم المعمارية المقترحة حديثًا للذاكرة طويلة الأمد الممتدة (xLSTM) قابلية توسع خطية. ومع ذلك، لم يتم استكشاف النماذج القائمة على xLSTM بعد في مجال تعزيز الكلام. يقدم هذا البحث نظام xLSTM-SENet، وهو أول نظام تعزيز كلام أحادي القناة يعتمد على xLSTM. تكشف التحليل المقارن أن نماذج xLSTM -وبشكل لافت للنظر حتى LSTM- يمكن أن توازي أو تتفوق على أنظمة مامبا (Mamba) ومطابقات الانتباه (Conformers) الرائدة في مجال تقنيات تعزيز الكلام بغض النظر عن أحجام النماذج المختلفة على مجموعة بيانات VoiceBank+Demand. من خلال دراسات الاستبعاد، تمكنا من تحديد خيارات تصميم معمارية رئيسية مثل التحكم الأسي (exponential gating) والاتجاه الثنائي (bidirectionality) التي تسهم في فعاليتها. يعتبر أفضل نموذج قائم على xLSTM لدينا، وهو xLSTM-SENet2، أكثر تفوقًا من أنظمة مامبا (Mamba) ومطابقات الانتباه (Conformers) الرائدة والمتشابهة في التعقيد على مجموعة بيانات Voicebank+DEMAND.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
xLSTM-SENet: xLSTM لتحسين الكلام أحادي القناة | مستندات | HyperAI