نهج ثنائي المراحل للتصنيف الصوتي للبيئة المستقل عن الجهاز

لتحسين متانة الجهاز، وهي ميزة رئيسية مرغوبة بشدة في نظام تصنيف المشهد الصوتي القائم على البيانات التنافسي (ASC)، تم اقتراح نظام ثنائي المراحل جديد يعتمد على الشبكات العصبية التلافيفية الكاملة (CNN). يستفيد النظام الثنائي المراحل من تركيب مخصص للدرجات يستند إلى فئتين من تصنيفات CNN: (أ) تصنف الشبكة العصبية التلافيفية الأولى الإدخالات الصوتية إلى واحدة من ثلاث فئات واسعة، و(ب) تصنف الشبكة العصبية التلافيفية الثانية نفس الإدخالات إلى واحدة من عشر فئات أكثر دقة. تم استكشاف ثلاث هياكل مختلفة لشبكات CNN لتنفيذ تصنيفات النظام ثنائي المراحل، كما تم دراسة خطة لاختزال التردد. بالإضافة إلى ذلك، تم استكشاف تقنيات جديدة لتعزيز البيانات في سياق تصنيف المشهد الصوتي (ASC). وقد أُقيمت التجارب على مهمة DCASE 2020 Task 1a، وأظهرت النتائج أن النظام المقترح لتصنيف المشهد الصوتي يحقق دقة من الدرجة الأولى على مجموعة التدريب، حيث حقق أفضل نظام لدينا، وهو تجميع ثنائي المراحل للأنسجامات المكونة من شبكات CNN، دقة متوسطة بلغت 81.9% على بيانات الاختبار المتعددة الأجهزة، كما أظهر تحسناً ملحوظاً على الأجهزة غير المرئية. وأخيراً، أتاح التحليل العصبي للتركيز (Saliency) باستخدام خريطة التنشيط الطبقي (CAM) رؤى جديدة حول الأنماط التي تعلمتها نماذجنا.