BEATs: التدريب المسبق للصوت باستخدام مُحَوِّلات الصوت

شهدت السنوات الأخيرة نموًا هائلاً في التعلم ذاتي التوجيه (SSL) في مجالات اللغة، الرؤية، الكلام، والصوت. في حين أن التنبؤ بالعلامات المنفصلة يُستخدم على نطاق واسع في الوسائط الأخرى، تستمر النماذج الحالية الأفضل في مجال صوت SSL في استخدام خسارة إعادة البناء خلال التدريب المسبق. مقارنةً بخسارة إعادة البناء، فإن التنبؤ بالعلامات المنفصلة الغنية بالمعنى يشجع نموذج SSL على استخلاص المعاني الصوتية عالية المستوى والتخلص من التفاصيل الزائدة، تمامًا كما يحدث في الإدراك البشري. ومع ذلك، فإن الحصول على مُفكّك صوتي غني بالمعنى لتدريب صوتي عام غالبًا ما يكون غير مباشر، نظرًا للطبيعة المستمرة للصوت، وعدم توفر تسلسلات أصواتية (فونيمات) كتلك الموجودة في الكلام. لمعالجة هذه التحديات، نقترح BEATs، وهي إطار تدريب مسبق صوتي تكراري لتعلم تمثيلات المُشفّر الثنائي من نماذج المحولات الصوتية (Audio Transformers)، حيث يتم تحسين مُفكّك صوتي ونموذج SSL الصوتي بالتناوب عبر تكرارات متعددة. في التكرار الأول، نستخدم التصوير العشوائي كمُفكّك صوتي لتدريب نموذج SSL الصوتي بطريقة التنبؤ بالعلامات مع تغطية (Mask and Label Prediction). ثم نُدرّب مُفكّك صوتي للدورة التالية من خلال استخلاص المعرفة المعجمية من نموذج SSL الصوتي المُدرّب مسبقًا أو المُعدّل دقيقًا. ويُعاد التكرار مع التطلع إلى تعزيز متبادل بين المُفكّك الصوتي ونموذج SSL الصوتي. أظهرت النتائج التجريبية أن مُفكّكاتنا الصوتية قادرة على إنتاج علامات منفصلة غنية بالمعنى الصوتي، وأن نماذجنا SSL الصوتية حققت نتائج قياسية على مجموعة متنوعة من معايير تصنيف الصوت، حتى تفوقت بشكل كبير على النماذج السابقة التي استخدمت كميات أكبر من البيانات وعددًا أكبر من المعلمات. وبشكل خاص، حققنا أفضل نتيجة مُحققة حتى الآن بـ 50.6% في مؤشر mAP على بيانات AudioSet-2M لنماذج الصوت فقط دون استخدام أي بيانات خارجية، ودقة بلغت 98.1% على مجموعة ESC-50. يمكن الوصول إلى الشفرة والنماذج المُدرّبة مسبقًا من خلال الرابط: https://aka.ms/beats.