HyperAIHyperAI
منذ 11 أيام

نهج ثنائي المراحل للتصنيف الصوتي للبيئة المستقل عن الجهاز

Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee
نهج ثنائي المراحل للتصنيف الصوتي للبيئة المستقل عن الجهاز
الملخص

لتحسين متانة الجهاز، وهي ميزة رئيسية مرغوبة بشدة في نظام تصنيف المشهد الصوتي القائم على البيانات التنافسي (ASC)، تم اقتراح نظام ثنائي المراحل جديد يعتمد على الشبكات العصبية التلافيفية الكاملة (CNN). يستفيد النظام الثنائي المراحل من تركيب مخصص للدرجات يستند إلى فئتين من تصنيفات CNN: (أ) تصنف الشبكة العصبية التلافيفية الأولى الإدخالات الصوتية إلى واحدة من ثلاث فئات واسعة، و(ب) تصنف الشبكة العصبية التلافيفية الثانية نفس الإدخالات إلى واحدة من عشر فئات أكثر دقة. تم استكشاف ثلاث هياكل مختلفة لشبكات CNN لتنفيذ تصنيفات النظام ثنائي المراحل، كما تم دراسة خطة لاختزال التردد. بالإضافة إلى ذلك، تم استكشاف تقنيات جديدة لتعزيز البيانات في سياق تصنيف المشهد الصوتي (ASC). وقد أُقيمت التجارب على مهمة DCASE 2020 Task 1a، وأظهرت النتائج أن النظام المقترح لتصنيف المشهد الصوتي يحقق دقة من الدرجة الأولى على مجموعة التدريب، حيث حقق أفضل نظام لدينا، وهو تجميع ثنائي المراحل للأنسجامات المكونة من شبكات CNN، دقة متوسطة بلغت 81.9% على بيانات الاختبار المتعددة الأجهزة، كما أظهر تحسناً ملحوظاً على الأجهزة غير المرئية. وأخيراً، أتاح التحليل العصبي للتركيز (Saliency) باستخدام خريطة التنشيط الطبقي (CAM) رؤى جديدة حول الأنماط التي تعلمتها نماذجنا.

نهج ثنائي المراحل للتصنيف الصوتي للبيئة المستقل عن الجهاز | أحدث الأوراق البحثية | HyperAI