HyperAIHyperAI
منذ 8 أيام

بايت كفر2: نحو تقليل الأبعاد في التضمين الخفي لتحديد الأغاني المغلفة بكفاءة

{Zejun Ma, Bilei Zhu, Zijie Wang, Ke Chen, Xingjian Du}
الملخص

أظهرت الطرق القائمة على الشبكات العصبية التلافيفية (CNN) هيمنة واضحة في الأبحاث الحديثة المتعلقة بتحديد الأغاني المغلفة (CSI). ويشكل نظام ByteCover الذي قدمناه مثالاً نموذجياً، حيث حقق نتائج رائدة على جميع المجموعات الرئيسية المستخدمة في CSI. وفي هذه الورقة، نقدم نسخة مطورة من نظام ByteCover تُسمى ByteCover2، والتي تُحسّن أداء التعرف والكفاءة مقارنة بنظام ByteCover الأصلي. إذ تم تصميم ByteCover2 بإضافة وحدة PCA-FC، التي تدمج قدرات تحليل المكونات الرئيسية (PCA) والشبكة العصبية الكاملة الاتصال (FC) لتقليل أبعاد تمثيل الصوت، مما يمكّن ByteCover2 من أداء مهمة تحديد الأغاني المغلفة بشكل أكثر دقة وكفاءة. وقد تم تقييم ByteCover2 على عدة مجموعات بيانات بمقاييس أبعاد مختلفة وإعدادات تدريب مختلفة، حيث تفوق جميع الطرق المُقارنة، بما في ذلك ByteCover نفسه، حتى مع حجم بُعْد 128، وهو ما يُعادل خمسة عشر مرة أقل من حجم البُعد المستخدم في ByteCover.