ByteCover: تحديد الأغاني المغطاة عبر التدريب متعدد الخسائر

نقدم في هذا البحث طريقة جديدة لتعلم الخصائص تُسمى ByteCover، وهي مخصصة لمعرفة الأغاني المغطاة (CSI). يتم بناء ByteCover على أساس النموذج الكلاسيكي ResNet، وقد تم تصميم تحسينين رئيسيين لتعزيز قدرة النموذج على CSI بشكل أكبر. في التحسين الأول، نقدم دمج التطبيع الشاخصي (IN) والتنormalization الدفعة (BN) لبناء كتل IBN، والتي تعد المكونات الرئيسية لنماذجنا ResNet-IBN. بمساعدة كتل IBN، يمكن لنموذجنا CSI تعلم الخصائص التي تكون ثابتة أمام التغييرات في الصفات الموسيقية مثل اللحن، الإيقاع، الصوتية والنمط، مع الحفاظ على معلومات الإصدار. في التحسين الثاني، نستخدم طريقة BNNeck للسماح بالتدريب متعدد الخسائر وتشجيع طريقتنا على تحسين خسارة تصنيف وخسارة ثلاثية بشكل مشترك، وبذلك يمكن ضمان تمييز الغاني المغطاة بين الفئات والتكاثف داخل الفئة في الوقت نفسه. أظهرت مجموعة من التجارب فعالية وكفاءة ByteCover على عدة مجموعات بيانات، وفي مجموعة بيانات Da-TACOS، تفوق ByteCover على أفضل نظام تنافسي بنسبة 20.9٪.