منذ 16 أيام
توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

الملخص
شهدت النماذج التوليدية القائمة على الصوت في مجال الموسيقى تقدماً كبيراً مؤخراً، لكنها لم تتمكن حتى الآن من إنتاج مقطوعات موسيقية كاملة الطول ذات هيكل موسيقي متماسك. نوضح من خلال هذا العمل أنه من الممكن إنتاج موسيقى طويلة المدى تصل إلى 4 دقائق و45 ثانية، وذلك من خلال تدريب نموذج توليدي على سياقات زمنية طويلة. يتكوّن نموذجنا من مُحول تمايزي (diffusion-transformer) يعمل على تمثيل خطي مستمر مُخفَّض بشكل كبير (معدل خطي 21.5 هرتز). ويحقق النموذج أداءً متفوقاً على المستوى الحدي في مقاييس جودة الصوت وتوافق الاستجابة مع المدخلات (prompt alignment)، كما أظهرت الاختبارات الذاتية أنه قادر على إنتاج موسيقى كاملة الطول ذات هيكل متماسك.