HyperAIHyperAI
منذ 2 أشهر

مُستانغو: نحو إنشاء موسيقى قابل للتحكم من النصوص

Melechovsky, Jan ; Guo, Zixun ; Ghosal, Deepanway ; Majumder, Navonil ; Herremans, Dorien ; Poria, Soujanya
مُستانغو: نحو إنشاء موسيقى قابل للتحكم من النصوص
الملخص

لقد وصلت جودة نماذج النص إلى الموسيقى إلى مستويات جديدة بفضل التقدم الأخير في نماذج الانتشار (diffusion models). ومع ذلك، فإن قابلية التحكم في مختلف جوانب الموسيقى لم تُستكشف بشكل كافٍ بعد. في هذا البحث، نقترح نظام موستانغو (Mustango): وهو نظام تحويل النص إلى موسيقى مبني على أساس المعرفة في مجال الموسيقى ويعتمد على نموذج الانتشار. يهدف موستانغو إلى التحكم في الموسيقى المولدة ليس فقط من خلال العناوين النصية العامة، بل أيضًا من خلال عناوين أكثر غنى يمكن أن تتضمن تعليمات محددة تتعلق بالألحان والضربات وتempo والمفتاح. وفي صميم نظام موستانغو يوجد موديول الإرشاد ميونيت (MuNet)، وهو وحدة إرشاد معروفة بالمعرفة في مجال الموسيقى التي توجه الموسيقى المولدة لتشمل الشروط الخاصة بالموسيقى، والتي نتنبأ بها من الدعوة النصية، بالإضافة إلى الترميز النصي العام أثناء عملية الانتشار العكسي.لتجاوز حدود توفر البيانات المفتوحة للموسيقى مع العناوين النصية، اقترحنا طريقة جديدة لتضخيم البيانات تشمل تعديل الجوانب التوافقية والنسقية والديناميكية للموسيقى الصوتية واستخدام أحدث طرق استرجاع المعلومات الموسيقية لاستخراج خصائص الموسيقى التي سيتم إلحاقها بعد ذلك بالوصف الموجود بناءً على النص. لقد أطلقنا مجموعة بيانات موسيكبنش (MusicBench) الناتجة التي تحتوي على أكثر من 52 ألف حالة وتتضمن وصفًا يستند إلى نظرية الموسيقى في النصوص العناوين.من خلال التجارب الواسعة، أظهرنا أن جودة الموسيقى المولدة بواسطة موستانغو هي الأفضل حاليًا، وأن قابلية التحكم من خلال الدعوات النصية الخاصة بالموsiqى تتفوق بشكل كبير على نماذج أخرى مثل موستكجن (MusicGen) وأوديوإلدام2 (AudioLDM2).

مُستانغو: نحو إنشاء موسيقى قابل للتحكم من النصوص | أحدث الأوراق البحثية | HyperAI