HyperAIHyperAI

Command Palette

Search for a command to run...

MeLFusion: توليف الموسيقى من إشارات الصور واللغة باستخدام نماذج التوسع

Sanjoy Chowdhury Sayan Nag K J Joseph Balaji Vasan Srinivasan Dinesh Manocha

الملخص

الموسيقى هي لغة عالمية يمكنها نقل العواطف والمشاعر. وهي تشكل جزءًا أساسيًا من طيف الوسائط الإبداعية بأكمله، بدءًا من الأفلام وانتهاءً بمنشورات وسائل التواصل الاجتماعي. النماذج التي تعتمد على التعلم الآلي والتي يمكنها تركيب الموسيقى غالبًا ما تكون مشروطة بوصف نصي لها. مستوحاة من الطريقة التي يتألف بها الموسيقيون الموسيقى ليس فقط من سيناريو فيلم، بل أيضًا عبر التصورات البصرية، نقترح نموذج MeLFusion، وهو نموذج قادر على استخدام المؤشرات بشكل فعال من الوصف النصي والصورة المقابلة لتركيب الموسيقى. MeLFusion هو نموذج توزيعي (diffusion) للنص إلى موسيقى مع "مفصل بصري" (visual synapse) جديد، والذي يدمج المعاني من الوسيلة البصرية بشكل فعال في الموسيقى المولدة. لتسهيل البحث في هذا المجال، نقدم مجموعة بيانات جديدة تُسمى MeLBench ونقترح مقياس تقييم جديد يُسمى IMSM. تقترح دراساتنا التجريبية الشاملة أن إضافة المعلومات البصرية إلى خط أنابيب تركيب الموسيقى يحسن بشكل كبير جودة الموسيقى المولدة، سواءً بشكل موضوعي أو ذاتي، بمكسب نسبي يصل إلى 67.98% على مؤشر FAD. نأمل أن يعمل بحثنا على جمع الاهتمام حول هذا المجال البحثي العملي ولكنه غير مستكشف بشكل كافٍ نسبيًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp