تصنيف الأغاني متعددة العلامات من الصوت والنص والصور باستخدام الخصائص العميقة

تتيح أصناف الموسيقى تصنيف العناصر الموسيقية التي تشترك في خصائص مشتركة. رغم أن هذه الأصناف ليست حصرية، إلا أن معظم البحوث ذات الصلة تركز تقليديًا على تصنيف المسارات إلى فئة واحدة. بالإضافة إلى ذلك، تكون هذه الأصناف (مثل البوب والروك) غالبًا واسعة جدًا لبعض التطبيقات. في هذا العمل، نهدف إلى توسيع هذه المهمة من خلال تصنيف العناصر الموسيقية إلى علامات متعددة ومفصلة، باستخدام ثلاث نماذج بيانات مختلفة: الصوت، النص، والصور. لهذا الغرض، نقدم مجموعة البيانات MuMu الجديدة، والتي تحتوي على أكثر من 31 ألف ألبوم مصنف إلى 250 صنفًا موسيقيًا. لقد جمعنا لكل ألبوم صورة الغلاف، ومراجعات نصية، ومسارات صوتية. علاوة على ذلك، نقترح منهجية لتصنيف الأجناس المتعددة تعتمد على تركيب تمثيلات الخصائص التي تم تعلمها باستخدام أفضل الأساليب الحديثة للتعلم العميق. تظهر التجارب اختلافات كبيرة بين النماذج المختلفة، مما لا يقتصر فقط على تقديم خطوط أساس جديدة لتصنيف الأجناس المتعددة، بل يشير أيضًا إلى أن دمجها يؤدي إلى نتائج أفضل.