HyperAIHyperAI
منذ 2 أشهر

Noise2Music: توليد الموسيقى المشروطة بالنص باستخدام نماذج التفتيت

Huang, Qingqing ; Park, Daniel S. ; Wang, Tao ; Denk, Timo I. ; Ly, Andy ; Chen, Nanxin ; Zhang, Zhengdong ; Zhang, Zhishuai ; Yu, Jiahui ; Frank, Christian ; Engel, Jesse ; Le, Quoc V. ; Chan, William ; Chen, Zhifeng ; Han, Wei
Noise2Music: توليد الموسيقى المشروطة بالنص باستخدام نماذج التفتيت
الملخص

نقدم لكم "Noise2Music"، حيث يتم تدريب سلسلة من نماذج الانتشار لإنتاج مقاطع موسيقية عالية الجودة مدتها 30 ثانية من دوافع نصية. يتم تدريب وتوظيف نوعين من نماذج الانتشار، وهما النموذج المولد، الذي ينتج تمثيلاً متوسطاً مشروطاً بالنص، والنموذج المتتابع (Cascader)، الذي ينتج صوتاً عالي الدقة مشروطاً بالتمثيل المتوسط وإمكانية وجود النص. نستكشف خيارين للتمثيل المتوسط، أحدهما يستخدم الطيف الصوتي (Spectrogram) والآخر يستخدم صوتًا بجودة أقل.وجدنا أن الصوت المُولَّد ليس فقط قادرًا على تعكس العناصر الرئيسية للدافع النصي مثل النوع الموسيقي، الإيقاع، الآلات الموسيقية، الحالة المزاجية، والعصر بشكل أمين، بل يتخطى ذلك ليؤسس المعاني الدقيقة للدافع. تلعب النماذج اللغوية الكبيرة المُدرَّبة مسبقًا دورًا محوريًا في هذا السياق -- فهي تستخدم لإنتاج النصوص المرتبطة بصوت مجموعة التدريب واستخراج التمثيلات المتجهية للدوافع النصية التي يتم استيعابها بواسطة نماذج الانتشار.أمثلة مُولَّدة: https://google-research.github.io/noise2music

Noise2Music: توليد الموسيقى المشروطة بالنص باستخدام نماذج التفتيت | أحدث الأوراق البحثية | HyperAI