HyperAIHyperAI
منذ 2 أشهر

MeLFusion: توليف الموسيقى من إشارات الصور واللغة باستخدام نماذج التوسع

Chowdhury, Sanjoy ; Nag, Sayan ; Joseph, K J ; Srinivasan, Balaji Vasan ; Manocha, Dinesh
MeLFusion: توليف الموسيقى من إشارات الصور واللغة باستخدام نماذج التوسع
الملخص

الموسيقى هي لغة عالمية يمكنها نقل العواطف والمشاعر. وهي تشكل جزءًا أساسيًا من طيف الوسائط الإبداعية بأكمله، بدءًا من الأفلام وانتهاءً بمنشورات وسائل التواصل الاجتماعي. النماذج التي تعتمد على التعلم الآلي والتي يمكنها تركيب الموسيقى غالبًا ما تكون مشروطة بوصف نصي لها. مستوحاة من الطريقة التي يتألف بها الموسيقيون الموسيقى ليس فقط من سيناريو فيلم، بل أيضًا عبر التصورات البصرية، نقترح نموذج MeLFusion، وهو نموذج قادر على استخدام المؤشرات بشكل فعال من الوصف النصي والصورة المقابلة لتركيب الموسيقى. MeLFusion هو نموذج توزيعي (diffusion) للنص إلى موسيقى مع "مفصل بصري" (visual synapse) جديد، والذي يدمج المعاني من الوسيلة البصرية بشكل فعال في الموسيقى المولدة. لتسهيل البحث في هذا المجال، نقدم مجموعة بيانات جديدة تُسمى MeLBench ونقترح مقياس تقييم جديد يُسمى IMSM. تقترح دراساتنا التجريبية الشاملة أن إضافة المعلومات البصرية إلى خط أنابيب تركيب الموسيقى يحسن بشكل كبير جودة الموسيقى المولدة، سواءً بشكل موضوعي أو ذاتي، بمكسب نسبي يصل إلى 67.98% على مؤشر FAD. نأمل أن يعمل بحثنا على جمع الاهتمام حول هذا المجال البحثي العملي ولكنه غير مستكشف بشكل كافٍ نسبيًا.

MeLFusion: توليف الموسيقى من إشارات الصور واللغة باستخدام نماذج التوسع | أحدث الأوراق البحثية | HyperAI