HyperAIHyperAI

Command Palette

Search for a command to run...

WildDESED: مجموعة بيانات مدعومة بالنموذج اللغوي الكبير للكشف عن أحداث الأصوات في البيئة المنزلية البرية

Yang Xiao Rohan Kumar Das

الملخص

يهدف هذا العمل إلى تقدم بحث اكتشاف أحداث الصوت (SED) من خلال تقديم مجموعة بيانات جديدة مدعومة بنموذج لغوي كبير (LLM)، وهي مجموعة بيانات اكتشاف أحداث الصوت في البيئة المنزلية البرية (WildDESED). تم تصميمها كامتداد لمجموعة البيانات الأصلية DESED لتعكس التباين الصوتي المتنوع والضوضاء المعقدة في الإعدادات المنزلية. استخدمنا نماذج اللغة الكبيرة (LLMs) لإنشاء ثماني سيناريوهات منزلية مختلفة بناءً على فئات الصوت المستهدفة في مجموعة البيانات DESED. ثم غنينا هذه السيناريوهات بمزيج مدروس بعناية من الضوضاء المختارة من AudioSet، مع ضمان عدم تداخلها مع الصوت المستهدف. نحن نعتبر الشبكة العصبية التكرارية المتلافهة (CRNN) ذات الشعبية الواسعة لدراسة مجموعة البيانات WildDESED، مما يظهر طبيعتها التحديّة. بعد ذلك، نطبق تعلم المنهاج عن طريق زيادة تعقيد الضوضاء تدريجيًا لتعزيز قدرات التعميم للنموذج عبر مستويات الضوضاء المختلفة. أظهرت نتائجنا باستخدام هذا النهج تحسينات داخل البيئة الضوضائية، مما يؤكد فعاليته على مجموعة البيانات WildDESED ويدفع نحو تقدم اكتشاف أحداث الصوت المقاوم للضوضاء (noise-robust SED).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp