ماسكتد أوتوإينكودرز التي تستمع

يدرس هذا البحث تمديدًا بسيطًا لنموذج الترميز المقنع القائم على الصور (MAE) لتعلم التمثيل ذاتي التدريب من مخططات الطيف الصوتي. باعتماد تصميم مشابه لمحول encoder-decoder في MAE، يقوم Audio-MAE أولاً بتشفير قطع مخطط الطيف الصوتي باستخدام نسبة تغطية عالية، مع تمرير الرموز غير المغطاة فقط عبر طبقات المُشفّر. ثم يقوم المُفكّك بإعادة ترتيب السياق المشفر، مع إضافة رموز التغطية، لاستعادة مخطط الطيف الأصلي. وجدنا أن دمج الانتباه النافذ المحلي في المُفكّك يكون مفيدًا، نظرًا لدرجة الارتباط العالية بين مكونات مخطط الطيف الصوتي في المجالات الزمنية والتكرارية المحلية. بعد ذلك، نُعدّل المُشفّر بدقة باستخدام نسبة تغطية أقل على مجموعات البيانات المستهدفة. من الناحية التجريبية، حقق Audio-MAE أداءً جديدًا في الصدارة على ستة مهام تصنيف صوتي وصوتيات، متفوقًا على نماذج حديثة أخرى تعتمد على التدريب المُراقب الخارجي. سيتم نشر الشفرة والنماذج على: https://github.com/facebookresearch/AudioMAE.