JiTTER: محول زمني مجزأ لاستعادة الأحداث للكشف عن الأحداث الصوتية ذاتي التدريب

تماشيًا مع التطورات الكبيرة التي حققتها تقنيات التعلم ذاتي التوجيه (SSL) في مجال كشف الأحداث الصوتية (SED)، برزت نموذج "MAT-SED" الذي يستخدم نموذج التحويلة الصوتية المُعَمَّى (Masked Audio Transformer) كأحد الحلول الفعّالة، حيث يعتمد على مهمة استعادة الأجزاء المفقودة من الصوت من خلال توقع الكتل المُعَمَّاة. ومع ذلك، رغم كفاءته في التقاط الاعتماديات الشاملة (العامة) عبر الزمن، فإن استراتيجية توقع الكتل المُعَمَّاة تؤدي إلى تشويش الأحداث الصوتية العابرة، كما أنها لا تفرض بشكل صريح ترتيب الزمن، مما يجعلها أقل ملاءمة للكشف الدقيق عن حدود الأحداث الصوتية. لمعالجة هذه القيود، نقترح نموذج "JiTTER" (Jigsaw Temporal Transformer for Event Reconstruction)، وهو إطار عمل لتعلم ذاتي التوجيه مصمم لتحسين النمذجة الزمنية في نماذج SED القائمة على التحويلة. يتميز JiTTER باستراتيجية إعادة بناء مُشوَّشة زمنيًا هرمية، حيث يتم تبديل ترتيب التسلسلات الصوتية بشكل عشوائي على مستويي الكتلة (block-level) والإطار (frame-level)، مما يُجبر النموذج على استعادة الترتيب الزمني الصحيح. وتُشجع هذه مهمة التدريب المسبق النموذج على تعلّم البنية الزمنية العامة للأحداث، إلى جانب التفاصيل الدقيقة للإشارات العابرة، ما يعزز قدرته على اكتشاف الأحداث ذات الخصائص الحادة في البداية والانتهاء. علاوةً على ذلك، نُدمج إدخال ضوضاء أثناء عملية تبديل الكتل، مما يوفر آلية تداخل خفيفة تُسهم في تحسين التماسك المعرفي للسمات وتعزيز مقاومة النموذج للتشويش. أظهرت النتائج التجريبية على مجموعة بيانات DESED تفوق JiTTER على MAT-SED، حيث سجل تحسنًا بنسبة 5.89% في مؤشر PSDS، مما يؤكد فعالية التفكير الزمني الصريح في نماذج SED القائمة على التعلم ذاتي التوجيه. تشير نتائجنا إلى أن المهام المُنظمة لإعادة بناء الزمن، بدلًا من التوقعات المبسطة المُعَمَّاة، تمثل نموذجًا تدريبيًا أكثر فعالية لتعلم تمثيلات الأحداث الصوتية.