منذ 6 أشهر

الملخص

شهدت النماذج التوليدية القائمة على الصوت في مجال الموسيقى تقدماً كبيراً مؤخراً، لكنها لم تتمكن حتى الآن من إنتاج مقطوعات موسيقية كاملة الطول ذات هيكل موسيقي متماسك. نوضح من خلال هذا العمل أنه من الممكن إنتاج موسيقى طويلة المدى تصل إلى 4 دقائق و45 ثانية، وذلك من خلال تدريب نموذج توليدي على سياقات زمنية طويلة. يتكوّن نموذجنا من مُحول تمايزي (diffusion-transformer) يعمل على تمثيل خطي مستمر مُخفَّض بشكل كبير (معدل خطي 21.5 هرتز). ويحقق النموذج أداءً متفوقاً على المستوى الحدي في مقاييس جودة الصوت وتوافق الاستجابة مع المدخلات (prompt alignment)، كما أظهرت الاختبارات الذاتية أنه قادر على إنتاج موسيقى كاملة الطول ذات هيكل متماسك.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار