HyperAIHyperAI
منذ 2 أشهر

تصنيف الأغاني متعددة العلامات من الصوت والنص والصور باستخدام الخصائص العميقة

Sergio Oramas; Oriol Nieto; Francesco Barbieri; Xavier Serra
تصنيف الأغاني متعددة العلامات من الصوت والنص والصور باستخدام الخصائص العميقة
الملخص

تتيح أصناف الموسيقى تصنيف العناصر الموسيقية التي تشترك في خصائص مشتركة. رغم أن هذه الأصناف ليست حصرية، إلا أن معظم البحوث ذات الصلة تركز تقليديًا على تصنيف المسارات إلى فئة واحدة. بالإضافة إلى ذلك، تكون هذه الأصناف (مثل البوب والروك) غالبًا واسعة جدًا لبعض التطبيقات. في هذا العمل، نهدف إلى توسيع هذه المهمة من خلال تصنيف العناصر الموسيقية إلى علامات متعددة ومفصلة، باستخدام ثلاث نماذج بيانات مختلفة: الصوت، النص، والصور. لهذا الغرض، نقدم مجموعة البيانات MuMu الجديدة، والتي تحتوي على أكثر من 31 ألف ألبوم مصنف إلى 250 صنفًا موسيقيًا. لقد جمعنا لكل ألبوم صورة الغلاف، ومراجعات نصية، ومسارات صوتية. علاوة على ذلك، نقترح منهجية لتصنيف الأجناس المتعددة تعتمد على تركيب تمثيلات الخصائص التي تم تعلمها باستخدام أفضل الأساليب الحديثة للتعلم العميق. تظهر التجارب اختلافات كبيرة بين النماذج المختلفة، مما لا يقتصر فقط على تقديم خطوط أساس جديدة لتصنيف الأجناس المتعددة، بل يشير أيضًا إلى أن دمجها يؤدي إلى نتائج أفضل.

تصنيف الأغاني متعددة العلامات من الصوت والنص والصور باستخدام الخصائص العميقة | أحدث الأوراق البحثية | HyperAI