HyperAIHyperAI
منذ 2 أشهر

تقييم نماذج التصنيف الموسيقي الآلي القائمة على CNN

Minz Won; Andres Ferraro; Dmitry Bogdanov; Xavier Serra
تقييم نماذج التصنيف الموسيقي الآلي القائمة على CNN
الملخص

التطورات الحديثة في التعلم العميق ساهمت في تسريع تطوير أنظمة التسمية الموسيقية التلقائية القائمة على المحتوى. اقترح باحثو استرجاع معلومات الموسيقى (MIR) تصاميم مختلفة للهياكل، وتعتمد بشكل أساسي على شبكات العصبونات المتلافهة (CNNs)، والتي حققت نتائجًا رائدة في هذه المهمة ذات التصنيف الثنائي متعدد العلامات. ومع ذلك، بسبب الاختلافات في الإعدادات التجريبية التي يتبعها الباحثون، مثل استخدام تقسيمات بيانات مختلفة وأصدارات برامج مختلفة للتقييم، يصعب مقارنة الهياكل المقترحة مباشرة مع بعضها البعض. لتسهيل البحث المستقبلي، أجرينا في هذا البحث تقييمًا متسقًا لعدة نماذج لتسمية الموسيقى على ثلاث قواعد بيانات (MagnaTagATune، Million Song Dataset، و MTG-Jamendo) وقدمنا نتائج مرجعية باستخدام مقاييس تقييم مشتركة (ROC-AUC و PR-AUC). بالإضافة إلى ذلك، تم تقييم جميع النماذج باستخدام مدخلات مشوهة للتحقيق في قدراتها على التعميم فيما يتعلق بتمدد الزمن (time stretch)، تحويل النغمة (pitch shift)، ضغط نطاق الديناميكي (dynamic range compression)، وإضافة الضوضاء البيضاء (white noise). من أجل إمكانية إعادة إنتاج النتائج، قمنا بتوفير تنفيذات PyTorch مع النماذج المدربة مسبقًا.

تقييم نماذج التصنيف الموسيقي الآلي القائمة على CNN | أحدث الأوراق البحثية | HyperAI