HyperAIHyperAI
منذ 15 أيام

SSLAM: تحسين النماذج ذات التعلم الذاتي من خلال مزيج الصوتيات لمشهد الصوت المتعدد الأصوات

{Philip J B Jackson, Muhammad Awais, Armin Mustafa, Sara Atito, Tony Alex}
الملخص

لقد شهدت الشبكات الصوتية المُدرَّبة ذاتيًا مسبقًا انتشارًا واسعًا في الأنظمة الواقعية، خاصة في النماذج الكبيرة متعددة الوسائط للغة. غالبًا ما تُستخدم هذه الشبكات في حالة "مجمدة" (frozen)، بافتراض أن التدريب الذاتي المسبق قد قدّم لها ما يكفي من القدرة على التعامل مع الصوت في البيئات الواقعية. ومع ذلك، تبقى هناك مسألة حاسمة: ما مدى أداء هذه النماذج فعليًا في الظروف الواقعية، حيث يكون الصوت غالبًا متعدد الأصوات (polyphonic) ومرتفع التعقيد، ويشمل عدة مصادر صوتية متداخلة؟ تُقيّم معظم أساليب التعلم الصوتي الذاتي المسبق (SSL) حاليًا على مجموعات بيانات تُركّز بشكل كبير على الصوت الأحادي (monophonic)، مثل الأصوات البيئية والكلام. ونتيجة لذلك، يظل مدى قدرة نماذج SSL على التعميم على الصوت المتعدد الأصوات، وهو سمة شائعة في السيناريوهات الطبيعية، غير مُستكشف بشكل كافٍ. ويثير هذا التقييد مخاوف بشأن المتانة العملية لنموذج SSL في بيئات صوتية أكثر واقعية. ولسد هذه الفجوة، نقدّم "التعلم الذاتي من خلطات الصوت" (SSLAM)، اتجاهًا جديدًا في بحوث التعلم الصوتي الذاتي المسبق، مصممًا لتحسين قدرة النموذج على تعلّم البيانات الصوتية المتعددة الأصوات مع الحفاظ على أداء قوي في البيانات الصوتية الأحادية. قمنا بتقييم SSLAM بشكل شامل على مجموعات بيانات معيارية لاختبار التعلم الصوتي الذاتي المسبق، والتي تُعدّ غالبًا أحادية الصوت، ونُجري تحليلًا مقارنًا شاملاً مع أفضل النماذج الحالية (SOTA) باستخدام مجموعة متنوعة من مجموعات بيانات متعددة الأصوات عالية الجودة ومتوفرة للجمهور. أظهر SSLAM تحسنًا في أداء النموذج على الصوت المتعدد الأصوات، مع الحفاظ على الأداء أو تفوقه على مجموعات البيانات القياسية لاختبار التعلم الصوتي الذاتي المسبق. وبشكل ملحوظ، حقق تحسنًا يصل إلى 3.9% على مجموعة بيانات AudioSet-2M (AS-2M)، محققًا دقة متوسطة متوسطة (mAP) بلغت 50.2. أما في مجموعات البيانات المتعددة الأصوات، فقد أحدث SSLAM أداءً جديدًا مُتفوّقًا (SOTA) في كلا النمطين: التقييم الخطي (linear evaluation) والضبط الدقيق (fine-tuning)، مع تحسينات في الأداء تصل إلى 9.1% (mAP). تُظهر هذه النتائج فعالية SSLAM في بيئات صوتية متعددة الأصوات وأحادية الصوت على حد سواء، وتعزز بشكل كبير أداء نماذج التعلم الصوتي الذاتي المسبق.

SSLAM: تحسين النماذج ذات التعلم الذاتي من خلال مزيج الصوتيات لمشهد الصوت المتعدد الأصوات | أحدث الأوراق البحثية | HyperAI