HyperAIHyperAI
منذ 2 أشهر

xLSTM-SENet: xLSTM لتحسين الكلام أحادي القناة

Kühne, Nikolai Lund ; Østergaard, Jan ; Jensen, Jesper ; Tan, Zheng-Hua
xLSTM-SENet: xLSTM لتحسين الكلام أحادي القناة
الملخص

بينما تتفوق المعمارية القائمة على الانتباه، مثل مطابقات الانتباه (Conformers)، في تعزيز الكلام، فإنها تواجه تحديات مثل قابلية التوسع بالنسبة لطول سلسلة الإدخال. في المقابل، تقدم المعمارية المقترحة حديثًا للذاكرة طويلة الأمد الممتدة (xLSTM) قابلية توسع خطية. ومع ذلك، لم يتم استكشاف النماذج القائمة على xLSTM بعد في مجال تعزيز الكلام. يقدم هذا البحث نظام xLSTM-SENet، وهو أول نظام تعزيز كلام أحادي القناة يعتمد على xLSTM. تكشف التحليل المقارن أن نماذج xLSTM -وبشكل لافت للنظر حتى LSTM- يمكن أن توازي أو تتفوق على أنظمة مامبا (Mamba) ومطابقات الانتباه (Conformers) الرائدة في مجال تقنيات تعزيز الكلام بغض النظر عن أحجام النماذج المختلفة على مجموعة بيانات VoiceBank+Demand. من خلال دراسات الاستبعاد، تمكنا من تحديد خيارات تصميم معمارية رئيسية مثل التحكم الأسي (exponential gating) والاتجاه الثنائي (bidirectionality) التي تسهم في فعاليتها. يعتبر أفضل نموذج قائم على xLSTM لدينا، وهو xLSTM-SENet2، أكثر تفوقًا من أنظمة مامبا (Mamba) ومطابقات الانتباه (Conformers) الرائدة والمتشابهة في التعقيد على مجموعة بيانات Voicebank+DEMAND.