Noise2Music: توليد الموسيقى المشروطة بالنص باستخدام نماذج التفتيت

نقدم لكم "Noise2Music"، حيث يتم تدريب سلسلة من نماذج الانتشار لإنتاج مقاطع موسيقية عالية الجودة مدتها 30 ثانية من دوافع نصية. يتم تدريب وتوظيف نوعين من نماذج الانتشار، وهما النموذج المولد، الذي ينتج تمثيلاً متوسطاً مشروطاً بالنص، والنموذج المتتابع (Cascader)، الذي ينتج صوتاً عالي الدقة مشروطاً بالتمثيل المتوسط وإمكانية وجود النص. نستكشف خيارين للتمثيل المتوسط، أحدهما يستخدم الطيف الصوتي (Spectrogram) والآخر يستخدم صوتًا بجودة أقل.وجدنا أن الصوت المُولَّد ليس فقط قادرًا على تعكس العناصر الرئيسية للدافع النصي مثل النوع الموسيقي، الإيقاع، الآلات الموسيقية، الحالة المزاجية، والعصر بشكل أمين، بل يتخطى ذلك ليؤسس المعاني الدقيقة للدافع. تلعب النماذج اللغوية الكبيرة المُدرَّبة مسبقًا دورًا محوريًا في هذا السياق -- فهي تستخدم لإنتاج النصوص المرتبطة بصوت مجموعة التدريب واستخراج التمثيلات المتجهية للدوافع النصية التي يتم استيعابها بواسطة نماذج الانتشار.أمثلة مُولَّدة: https://google-research.github.io/noise2music