الملخص

لقد وصلت جودة نماذج النص إلى الموسيقى إلى مستويات جديدة بفضل التقدم الأخير في نماذج الانتشار (diffusion models). ومع ذلك، فإن قابلية التحكم في مختلف جوانب الموسيقى لم تُستكشف بشكل كافٍ بعد. في هذا البحث، نقترح نظام موستانغو (Mustango): وهو نظام تحويل النص إلى موسيقى مبني على أساس المعرفة في مجال الموسيقى ويعتمد على نموذج الانتشار. يهدف موستانغو إلى التحكم في الموسيقى المولدة ليس فقط من خلال العناوين النصية العامة، بل أيضًا من خلال عناوين أكثر غنى يمكن أن تتضمن تعليمات محددة تتعلق بالألحان والضربات وتempo والمفتاح. وفي صميم نظام موستانغو يوجد موديول الإرشاد ميونيت (MuNet)، وهو وحدة إرشاد معروفة بالمعرفة في مجال الموسيقى التي توجه الموسيقى المولدة لتشمل الشروط الخاصة بالموسيقى، والتي نتنبأ بها من الدعوة النصية، بالإضافة إلى الترميز النصي العام أثناء عملية الانتشار العكسي.لتجاوز حدود توفر البيانات المفتوحة للموسيقى مع العناوين النصية، اقترحنا طريقة جديدة لتضخيم البيانات تشمل تعديل الجوانب التوافقية والنسقية والديناميكية للموسيقى الصوتية واستخدام أحدث طرق استرجاع المعلومات الموسيقية لاستخراج خصائص الموسيقى التي سيتم إلحاقها بعد ذلك بالوصف الموجود بناءً على النص. لقد أطلقنا مجموعة بيانات موسيكبنش (MusicBench) الناتجة التي تحتوي على أكثر من 52 ألف حالة وتتضمن وصفًا يستند إلى نظرية الموسيقى في النصوص العناوين.من خلال التجارب الواسعة، أظهرنا أن جودة الموسيقى المولدة بواسطة موستانغو هي الأفضل حاليًا، وأن قابلية التحكم من خلال الدعوات النصية الخاصة بالموsiqى تتفوق بشكل كبير على نماذج أخرى مثل موستكجن (MusicGen) وأوديوإلدام2 (AudioLDM2).

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

مُستانغو: نحو إنشاء موسيقى قابل للتحكم من النصوص

Melechovsky Jan ; Guo Zixun ; Ghosal Deepanway ; Majumder Navonil ; Herremans Dorien ; Poria Soujanya

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُستانغو: نحو إنشاء موسيقى قابل للتحكم من النصوص

Melechovsky Jan ; Guo Zixun ; Ghosal Deepanway ; Majumder Navonil ; Herremans Dorien ; Poria Soujanya

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُستانغو: نحو إنشاء موسيقى قابل للتحكم من النصوص

Melechovsky Jan ; Guo Zixun ; Ghosal Deepanway ; Majumder Navonil ; Herremans Dorien ; Poria Soujanya

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters