HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة ضبط النموذج المُدرَّب مسبقًا ATST للكشف عن الأحداث الصوتية

Nian Shao Xian Li Xiaofei Li

الملخص

تُعاني كاشفات الأحداث الصوتية (SED) غالبًا من مشكلة نقص البيانات. وقد استخدم النظام الأساسي الأخير في مهمة المهمة 4 لتحدي DCASE2023 نماذج التعلم التلقائي المُدرَّبة مسبقًا الكبيرة (SelfSL) لتخفيف هذه القيود، حيث تساعد النماذج المُدرَّبة مسبقًا على إنتاج ميزات أكثر تمييزًا لاستخدامها في SED. ومع ذلك، تُعتبر النماذج المُدرَّبة مسبقًا كمُستخرج ميزات ثابت (frozen) في النظام الأساسي للتحدي وفي معظم المُقدَّمات، كما أن دراسة التكييف الدقيق (fine-tuning) للنماذج المُدرَّبة مسبقًا كانت نادرة جدًا. في هذا العمل، ندرس طريقة التكييف الدقيق للنماذج المُدرَّبة مسبقًا لتطبيقات SED. نُقدِّم أولًا نموذج SelfSL الجديد الذي طوّرناه، ATST-Frame، إلى نظام SED. وقد صُمِّم ATST-Frame خصيصًا لتعلم تمثيلات على مستوى الإطار (frame-level) للإشارات الصوتية، وحقق أداءً متميزًا (SOTA) في سلسلة من المهام اللاحقة. ثم نقترح طريقة تكييف دقيق لـ ATST-Frame باستخدام بيانات SED غير المُعلَّمة (في نفس المجال) والبيانات المُعلَّمة معًا. تُظهر التجارب أن الطريقة المقترحة تتجاوز مشكلة التكييف الزائد (overfitting) عند تكييف الشبكة المُدرَّبة مسبقًا الكبيرة، ويحقق نظام SED الخاص بنا نتائج SOTA جديدة بدرجات 0.587/0.812 في معايير PSDS1/PSDS2 على مجموعة بيانات مهمة DCASE2023 المهمة 4.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp