WildDESED: مجموعة بيانات مدعومة بالنموذج اللغوي الكبير للكشف عن أحداث الأصوات في البيئة المنزلية البرية

يهدف هذا العمل إلى تقدم بحث اكتشاف أحداث الصوت (SED) من خلال تقديم مجموعة بيانات جديدة مدعومة بنموذج لغوي كبير (LLM)، وهي مجموعة بيانات اكتشاف أحداث الصوت في البيئة المنزلية البرية (WildDESED). تم تصميمها كامتداد لمجموعة البيانات الأصلية DESED لتعكس التباين الصوتي المتنوع والضوضاء المعقدة في الإعدادات المنزلية. استخدمنا نماذج اللغة الكبيرة (LLMs) لإنشاء ثماني سيناريوهات منزلية مختلفة بناءً على فئات الصوت المستهدفة في مجموعة البيانات DESED. ثم غنينا هذه السيناريوهات بمزيج مدروس بعناية من الضوضاء المختارة من AudioSet، مع ضمان عدم تداخلها مع الصوت المستهدف. نحن نعتبر الشبكة العصبية التكرارية المتلافهة (CRNN) ذات الشعبية الواسعة لدراسة مجموعة البيانات WildDESED، مما يظهر طبيعتها التحديّة. بعد ذلك، نطبق تعلم المنهاج عن طريق زيادة تعقيد الضوضاء تدريجيًا لتعزيز قدرات التعميم للنموذج عبر مستويات الضوضاء المختلفة. أظهرت نتائجنا باستخدام هذا النهج تحسينات داخل البيئة الضوضائية، مما يؤكد فعاليته على مجموعة البيانات WildDESED ويدفع نحو تقدم اكتشاف أحداث الصوت المقاوم للضوضاء (noise-robust SED).