توليد الموسيقى العصبي الكفؤ

التطورات الحديثة في توليد الموسيقى قد تم تعزيزها بشكل ملحوظ بواسطة MusicLM المتطور، والذي يتكون من هرم يضم ثلاثة نماذج لغوية (LMs)، لكل منها دور في النمذجة الدلالية والصوتية الخشنة والصوتية الدقيقة على التوالي. ومع ذلك، فإن عملية العينات باستخدام MusicLM تتطلب معالجة هذه النماذج اللغوية واحدة تلو الأخرى للحصول على الرموز الصوتية الدقيقة، مما يجعلها مكلفة حاسوبيًا وغير قابلة للتطبيق في توليد الموسيقى الفوري. لا يزال التحدي الكبير يتمثل في توليد موسيقى فعّالة بجودة تعادل جودة MusicLM.في هذا البحث، نقدم MeLoDy (حيث M تقف للموسيقى؛ L للنموذج اللغوي؛ D للتوزيع)، وهو نموذج توزيع موجه بالنموذج اللغوي الذي يولد ملفات صوت موسيقية ذات جودة متطورة بينما يقلل من عدد العمليات الأمامية في MusicLM بنسبة 95.7٪ أو 99.6٪ على التوالي عند عينة موسيقى مدتها 10 ثوانٍ أو 30 ثانية. يستخدم MeLoDy أعلى مستوى من النموذج اللغوي من MusicLM للنمذجة الدلالية، ويطبق نموذج التوزيع ذو المسارين الجديد (DPD) ونظام VAE-GAN الصوتي لفك شفرة الرموز الدلالية المشروطة بكفاءة إلى موجات صوتية. تم اقتراح DPD لنمذجة الصوتيات الخشنة والدقيقة بشكل متزامن عن طريق دمج المعلومات الدلالية بفعالية في أقسام المتغيرات عبر الانتباه المتقاطع في كل خطوة إزالة الضوضاء.تُشير نتائج التجارب لدينا إلى تفوق MeLoDy ليس فقط في المزايا العملية المتعلقة بسرعة العينات وإمكانية الاستمرار اللانهائي للتوليد، ولكن أيضًا في جودته الموسيقية ونوعيته الصوتية وارتباطه بالنص.عيناتنا متاحة على الرابط: https://Efficient-MeLoDy.github.io/.