Command Palette
Search for a command to run...
توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي
توليد الموسيقى الطويلة الشكل باستخدام التباعد الخفي
Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons
الملخص
شهدت النماذج التوليدية القائمة على الصوت في مجال الموسيقى تقدماً كبيراً مؤخراً، لكنها لم تتمكن حتى الآن من إنتاج مقطوعات موسيقية كاملة الطول ذات هيكل موسيقي متماسك. نوضح من خلال هذا العمل أنه من الممكن إنتاج موسيقى طويلة المدى تصل إلى 4 دقائق و45 ثانية، وذلك من خلال تدريب نموذج توليدي على سياقات زمنية طويلة. يتكوّن نموذجنا من مُحول تمايزي (diffusion-transformer) يعمل على تمثيل خطي مستمر مُخفَّض بشكل كبير (معدل خطي 21.5 هرتز). ويحقق النموذج أداءً متفوقاً على المستوى الحدي في مقاييس جودة الصوت وتوافق الاستجابة مع المدخلات (prompt alignment)، كما أظهرت الاختبارات الذاتية أنه قادر على إنتاج موسيقى كاملة الطول ذات هيكل متماسك.