WideResNet مع التعلم المشترك للتمثيل وتعزيز البيانات لتحديد الأغاني المُغطاة

تمثيل الأغاني المُغَيَّرة (Cover Song Identification - CSI) يُعدّ مهمةً صعبةً ومواضيعَ مهمةً في مجتمع استرجاع معلومات الموسيقى (Music Information Retrieval - MIR). في السنوات الأخيرة، تم دراسة مشكلات CSI بشكل واسع باستخدام أساليب التعلم العميق. في هذا البحث، نُقدّم إطارًا جديدًا لـ CSI يعتمد على طريقة تعلم تمثيل مشترك مستوحاة من التعلم متعدد المهام. على وجه التحديد، نقترح استراتيجية تعلم مشتركة تجمع بين التصنيف وتعلم القياس لتحسين نموذج الأغاني المُغَيَّرة المستند إلى WideResNet، ونُسمّيه LyraC-Net. تهدف الدالة التصنيفية إلى تعلُّم تمثيلات مفصَّلة (separable embeddings) من فئات مختلفة، في حين يعمل تعلم القياس على تحسين تشابه التمثيلات من خلال تقليل المسافة بين الفئات (inter-class distance) وزيادة الفصل بين العناصر داخل الفئة (intra-class separability). يُتوقع أن تؤدي هذه الاستراتيجية المُجمَّعة للتحسين إلى تعلُّم تمثيل أكثر متانة للألحان المُغَيَّرة مقارنةً بالأساليب التي تعتمد على دالة تدريب واحدة. وبالنسبة لتعلم القياس، نُدخل شبكة البروتوتيب (prototypical network) لاستقرار وتسريع عملية التدريب، إلى جانب استخدام خسارة الثلاثي (triplet loss). علاوةً على ذلك، نُقدّم تقنية SpecAugment، وهي طريقة شائعة للتكبير (augmentation) في معالجة الكلام، لتحسين الأداء بشكل إضافي. أظهرت نتائج التجارب أن الطريقة المقترحة تحقق نتائج واعدة، وتتفوّق على الطرق الحديثة الأخرى في مجال CSI في التقييمات.