HyperAIHyperAI
منذ 2 أشهر

SSAMBA: تعلم التمثيل الصوتي ذاتي الإشراف باستخدام نموذج الفضاء الحالة مامبا

Siavash Shams; Sukru Samet Dindar; Xilin Jiang; Nima Mesgarani
SSAMBA: تعلم التمثيل الصوتي ذاتي الإشراف باستخدام نموذج الفضاء الحالة مامبا
الملخص

لقد ثورة نماذج الترانسفورمرات (Transformers) التعلم العميق في مهام مختلفة، بما في ذلك تعلم تمثيل الصوت، بفضل قدراتها القوية على النمذجة. ومع ذلك، غالباً ما تعاني هذه النماذج من التعقيد التربيعي في استخدام ذاكرة الوحدة المعالجة الرسومية (GPU) وفي وقت الاستدلال الحاسوبي، مما يؤثر على كفاءتها. مؤخراً، ظهرت نماذج الفضاء الحالة (State Space Models - SSMs) مثل مامبا (Mamba) كبديل واعد، حيث تقدم طريقة أكثر كفاءة من خلال تجنب هذه التعقيدات. بالنظر إلى هذه المزايا، نستكشف إمكانات النماذج المستندة إلى SSMs في مهام الصوت. في هذا البحث، نقدم نموذج مامبا الذاتي الإشراف لتمثيل الصوت (Self-Supervised Audio Mamba - SSAMBA)، وهو أول نموذج ذاتي الإشراف وخالي من الانتباه (attention-free) ومُعتمد على Mamba لتعلم تمثيل الصوت. يستخدم SSAMBA مامبا ثنائية الاتجاه لالتقاط الأنماط الصوتية المعقدة بكفاءة. لقد دمجنا إطار عمل للتدريب الذاتي المُشرف الذي يُحسِّن الأهداف التمييزية والمنتجة، مما يمكّن النموذج من تعلم تمثيلات صوتية قوية من مجموعة بيانات كبيرة وغير مشخصة. قمنا بتقييم SSAMBA في مهام مختلفة مثل تصنيف الصوت وتحديد الكلمات الرئيسية وتعريف المتحدث. أظهرت نتائجنا أن SSAMBA يتفوق على نموذج ترانسفورمر الصوتي الذاتي الإشراف (Self-Supervised Audio Spectrogram Transformer - SSAST) في معظم المهام. بشكل خاص، فإن SSAMBA أسرع بنسبة حوالي 92.7% وأكثر كفاءة في الذاكرة بنسبة 95.4% من SSAST بالنسبة لنموذج صغير الحجم مع حجم رمز المدخلات يبلغ 22 ألفاً. هذه المكاسب في الكفاءة بالإضافة إلى الأداء الأفضل تؤكد فعالية الابتكار الهندسي لـ SSAMBA، مما يجعلها خيارًا جاذبًا لمجموعة واسعة من تطبيقات معالجة الصوت.

SSAMBA: تعلم التمثيل الصوتي ذاتي الإشراف باستخدام نموذج الفضاء الحالة مامبا | أحدث الأوراق البحثية | HyperAI