HyperAIHyperAI
منذ 16 أيام

توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي

Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي
الملخص

شهدت النماذج التوليدية القائمة على الصوت في مجال الموسيقى تقدماً كبيراً مؤخراً، لكنها لم تتمكن حتى الآن من إنتاج مقطوعات موسيقية كاملة الطول ذات هيكل موسيقي متماسك. نوضح من خلال هذا العمل أنه من الممكن إنتاج موسيقى طويلة المدى تصل إلى 4 دقائق و45 ثانية، وذلك من خلال تدريب نموذج توليدي على سياقات زمنية طويلة. يتكوّن نموذجنا من مُحول تمايزي (diffusion-transformer) يعمل على تمثيل خطي مستمر مُخفَّض بشكل كبير (معدل خطي 21.5 هرتز). ويحقق النموذج أداءً متفوقاً على المستوى الحدي في مقاييس جودة الصوت وتوافق الاستجابة مع المدخلات (prompt alignment)، كما أظهرت الاختبارات الذاتية أنه قادر على إنتاج موسيقى كاملة الطول ذات هيكل متماسك.

توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي | أحدث الأوراق البحثية | HyperAI