EAT: التدريب المسبق ذاتيًا باستخدام محول الصوت الفعال

التعلم الذاتي غير المشرف (SSL) للصوت، والذي يهدف إلى تعلم تمثيلات جيدة من الصوت غير المصنف، قد حقق تقدماً ملحوظاً. ومع ذلك، فإن الطلب الحاسوبي الواسع خلال مرحلة التدريب الأولي يشكل عائقاً كبيراً أمام التطبيقات المحتملة وتحسين نماذج التعلم الذاتي غير المشرف للصوت. في هذا البحث، مستوحين من نجاح data2vec 2.0 في مجال الصور و Audio-MAE في مجال الصوت، نقدم محول الصوت الفعال (EAT) لتحسين فعالية وكفاءة التعلم الذاتي غير المشرف للصوت بشكل أكبر. يعتمد EAT المقترح على نموذج التدريب الذاتي غير المشرف المعاد تحميله في مجال الصوت. تم تصميم هدف جديد يُعرف بـ "هدف الجملة-الإطار" (UFO) لتعزيز قدرة النمذجة للأحداث الصوتية. بالإضافة إلى ذلك، نكشف أن استراتيجية التعتيم تكون حاسمة في التدريب الأولي للتعلم الذاتي غير المشرف للصوت، ويمكن الحصول على تمثيلات صوتية أفضل باستخدام أقنعة كتل معكوسة كبيرة. تظهر نتائج التجارب أن EAT يحقق أداءً رائداً (SOTA) في مجموعة متنوعة من المهام المتعلقة بالصوت، بما في ذلك AudioSet (AS-2M, AS-20K)، ESC-50، و SPC-2، مع زيادة سرعة التدريب الأولي تصل إلى حوالي 15 مرة مقارنة بنماذج التعلم الذاتي غير المشرف للصوت الموجودة حالياً.