الانتشار الصوتي الكامن السريع مع شروط التوقيت

توليد الصوت الاستريو ذو التردد العالي (44.1 كيلوهرتز) من تعليمات نصية يمكن أن يكون مكلفاً من الناحية الحسابية. بالإضافة إلى ذلك، فإن معظم الأعمال السابقة لا تتناول الطبيعة المتغيرة للمدة في الموسيقى وتأثيرات الصوت. يركز بحثنا على توليد كفاءة للصوت الاستريو متغير الطول والموسيقى طويلة المدة بتردد 44.1 كيلوهرتز باستخدام تعليمات نصية ومع نموذج توليدي. يعتمد Stable Audio على الانتشار الكامن، حيث يتم تعريف الكامن بواسطة ترميز ذاتي متغير بالكامل باستخدام الشبكات العصبية التلافيفية. يتم شرطه على تعليمات نصية وكذلك تضمينات الوقت، مما يسمح بالتحكم الدقيق في كل من محتوى ومدة الموسيقى والصوت المولدين. يمكن لـ Stable Audio رسم إشارات استريو يصل طولها إلى 95 ثانية بتردد 44.1 كيلوهرتز في غضون 8 ثوانٍ على معالج GPU من نوع A100. رغم كفاءته الحسابية وسرعته في الاستدلال، فإنه يعتبر أحد أفضل النماذج في معيارين عامين لتوليد الموسيقى والصوت من النص، ويمكنه توليد موسيقى ذات هيكل وتأثيرات صوت استريو على عكس النماذج الرائدة الأخرى.