الشبكة العصبية المعلمة-المتعلمة ذاتية الإشراف للمهام على مستوى القطعة وعلى مستوى الإطار

التعلم ذاتي الإشراف (SSL) ظهر كأحد الأساليب الشائعة لتعلم تمثيلات الصوت. أحد أهداف التدريب الذاتي المُشرف على الصوت هو نقل المعرفة إلى المهام الصوتية اللاحقة، والتي تشمل عادةً مهام المستوى الكليب والمهام المستوى الإطار. بينما تعد مهام المستوى الإطار مهمة لفهم المشاهد والأحداث الصوتية بدقة، فإن الدراسات السابقة تركز بشكل أساسي على تقييم المهام اللاحقة على مستوى الكليب. من أجل التعامل مع كل من مهام المستوى الكليب ومهام المستوى الإطار، يقترح هذا البحث نموذج Audio Teacher-Student Transformer (ATST)، مع إصدار على مستوى الكليب (يُطلق عليه ATST-Clip) وإصدار على مستوى الإطار (يُطلق عليه ATST-Frame)، المسؤولان عن تعلم تمثيلات المستوى الكليب وتمثيلات المستوى الإطار، على التوالي. يستخدم كلا النموذجين مشفّر Transformer ومخطط تدريب المعلم-التلميذ. لقد صممنا بعناية استراتيجية إنشاء المناظر لـ ATST-Clip وATST-Frame. تحديداً، يستخدم ATST-Clip زيادة بيانات قطاعية، بينما يدمج ATST-Frame زيادة بيانات إطارية والتغطية (masking). تظهر النتائج التجريبية أن نموذجنا ATST-Frame حقق أفضل الأداء (SOTA) في معظم المهام اللاحقة على مستوى الكليب وعلى مستوى الإطار. وبشكل خاص، يتفوق نموذجنا بشكل كبير في مهمة اكتشاف الأحداث الصوتية على مستوى الإطار. بالإضافة إلى ذلك، يمكن تحسين الأداء بشكل أكبر من خلال دمج النموذجين عبر تقنية distillation للمعرفة. رمز البرمجيات الخاص بنا متاح عبر الإنترنت.