MAT-SED: محول صوتي مasked مع تدريب مسبق يستند إلى إعادة البناء المasked للكشف عن الأحداث الصوتية

طرق كشف الأحداث الصوتية (SED) التي تستفيد من شبكة ترميز كبيرة مسبقة التدريب من نوع Transformer أظهرت أداءً واعداً في تحديات DCASE الأخيرة. ومع ذلك، لا تزال تعتمد على شبكة سياقية قائمة على RNN لنمذجة الارتباطات الزمنية، وذلك بشكل كبير بسبب ندرة البيانات المصنفة. في هذا البحث، نقترح نموذج SED يعتمد بالكامل على Transformer مع تدريب مسبق يستند إلى إعادة بناء مقنعة، والذي يُطلق عليه MAT-SED. بوجه خاص، تم تصميم Transformer مع ترميز موضع نسبي أولاً كشبكة سياقية، وتدريبه بشكل ذاتي ومراقب ذاتياً عن طريق مهمة إعادة البناء المقيد باستخدام جميع البيانات المستهدفة المتاحة. يتم ضبط كل من الشبكة المُشفرة والشبكة السياقية بشكل مشترك وفي طريقة شبه مراقبة. علاوة على ذلك، تم اقتراح استراتيجية دمج الخصائص العالمية والمحلية لتعزيز قدرة التحديد المكاني. وقد تجاوزت تقييمات MAT-SED في مهمة DCASE2023 رقم 4 الأداء الحالي الأكثر تقدماً، حيث حققت نتائج 0.587/0.896 PSDS1/PSDS2 على التوالي.