إعادة ضبط النموذج المُدرَّب مسبقًا ATST للكشف عن الأحداث الصوتية

تُعاني كاشفات الأحداث الصوتية (SED) غالبًا من مشكلة نقص البيانات. وقد استخدم النظام الأساسي الأخير في مهمة المهمة 4 لتحدي DCASE2023 نماذج التعلم التلقائي المُدرَّبة مسبقًا الكبيرة (SelfSL) لتخفيف هذه القيود، حيث تساعد النماذج المُدرَّبة مسبقًا على إنتاج ميزات أكثر تمييزًا لاستخدامها في SED. ومع ذلك، تُعتبر النماذج المُدرَّبة مسبقًا كمُستخرج ميزات ثابت (frozen) في النظام الأساسي للتحدي وفي معظم المُقدَّمات، كما أن دراسة التكييف الدقيق (fine-tuning) للنماذج المُدرَّبة مسبقًا كانت نادرة جدًا. في هذا العمل، ندرس طريقة التكييف الدقيق للنماذج المُدرَّبة مسبقًا لتطبيقات SED. نُقدِّم أولًا نموذج SelfSL الجديد الذي طوّرناه، ATST-Frame، إلى نظام SED. وقد صُمِّم ATST-Frame خصيصًا لتعلم تمثيلات على مستوى الإطار (frame-level) للإشارات الصوتية، وحقق أداءً متميزًا (SOTA) في سلسلة من المهام اللاحقة. ثم نقترح طريقة تكييف دقيق لـ ATST-Frame باستخدام بيانات SED غير المُعلَّمة (في نفس المجال) والبيانات المُعلَّمة معًا. تُظهر التجارب أن الطريقة المقترحة تتجاوز مشكلة التكييف الزائد (overfitting) عند تكييف الشبكة المُدرَّبة مسبقًا الكبيرة، ويحقق نظام SED الخاص بنا نتائج SOTA جديدة بدرجات 0.587/0.812 في معايير PSDS1/PSDS2 على مجموعة بيانات مهمة DCASE2023 المهمة 4.