تقييم نماذج التصنيف الموسيقي الآلي القائمة على CNN

التطورات الحديثة في التعلم العميق ساهمت في تسريع تطوير أنظمة التسمية الموسيقية التلقائية القائمة على المحتوى. اقترح باحثو استرجاع معلومات الموسيقى (MIR) تصاميم مختلفة للهياكل، وتعتمد بشكل أساسي على شبكات العصبونات المتلافهة (CNNs)، والتي حققت نتائجًا رائدة في هذه المهمة ذات التصنيف الثنائي متعدد العلامات. ومع ذلك، بسبب الاختلافات في الإعدادات التجريبية التي يتبعها الباحثون، مثل استخدام تقسيمات بيانات مختلفة وأصدارات برامج مختلفة للتقييم، يصعب مقارنة الهياكل المقترحة مباشرة مع بعضها البعض. لتسهيل البحث المستقبلي، أجرينا في هذا البحث تقييمًا متسقًا لعدة نماذج لتسمية الموسيقى على ثلاث قواعد بيانات (MagnaTagATune، Million Song Dataset، و MTG-Jamendo) وقدمنا نتائج مرجعية باستخدام مقاييس تقييم مشتركة (ROC-AUC و PR-AUC). بالإضافة إلى ذلك، تم تقييم جميع النماذج باستخدام مدخلات مشوهة للتحقيق في قدراتها على التعميم فيما يتعلق بتمدد الزمن (time stretch)، تحويل النغمة (pitch shift)، ضغط نطاق الديناميكي (dynamic range compression)، وإضافة الضوضاء البيضاء (white noise). من أجل إمكانية إعادة إنتاج النتائج، قمنا بتوفير تنفيذات PyTorch مع النماذج المدربة مسبقًا.