HyperAIHyperAI

Command Palette

Search for a command to run...

توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي

Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons

الملخص

شهدت النماذج التوليدية القائمة على الصوت في مجال الموسيقى تقدماً كبيراً مؤخراً، لكنها لم تتمكن حتى الآن من إنتاج مقطوعات موسيقية كاملة الطول ذات هيكل موسيقي متماسك. نوضح من خلال هذا العمل أنه من الممكن إنتاج موسيقى طويلة المدى تصل إلى 4 دقائق و45 ثانية، وذلك من خلال تدريب نموذج توليدي على سياقات زمنية طويلة. يتكوّن نموذجنا من مُحول تمايزي (diffusion-transformer) يعمل على تمثيل خطي مستمر مُخفَّض بشكل كبير (معدل خطي 21.5 هرتز). ويحقق النموذج أداءً متفوقاً على المستوى الحدي في مقاييس جودة الصوت وتوافق الاستجابة مع المدخلات (prompt alignment)، كما أظهرت الاختبارات الذاتية أنه قادر على إنتاج موسيقى كاملة الطول ذات هيكل متماسك.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp