HyperAIHyperAI

Command Palette

Search for a command to run...

الانتشار الصوتي الكامن السريع مع شروط التوقيت

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

الملخص

توليد الصوت الاستريو ذو التردد العالي (44.1 كيلوهرتز) من تعليمات نصية يمكن أن يكون مكلفاً من الناحية الحسابية. بالإضافة إلى ذلك، فإن معظم الأعمال السابقة لا تتناول الطبيعة المتغيرة للمدة في الموسيقى وتأثيرات الصوت. يركز بحثنا على توليد كفاءة للصوت الاستريو متغير الطول والموسيقى طويلة المدة بتردد 44.1 كيلوهرتز باستخدام تعليمات نصية ومع نموذج توليدي. يعتمد Stable Audio على الانتشار الكامن، حيث يتم تعريف الكامن بواسطة ترميز ذاتي متغير بالكامل باستخدام الشبكات العصبية التلافيفية. يتم شرطه على تعليمات نصية وكذلك تضمينات الوقت، مما يسمح بالتحكم الدقيق في كل من محتوى ومدة الموسيقى والصوت المولدين. يمكن لـ Stable Audio رسم إشارات استريو يصل طولها إلى 95 ثانية بتردد 44.1 كيلوهرتز في غضون 8 ثوانٍ على معالج GPU من نوع A100. رغم كفاءته الحسابية وسرعته في الاستدلال، فإنه يعتبر أحد أفضل النماذج في معيارين عامين لتوليد الموسيقى والصوت من النص، ويمكنه توليد موسيقى ذات هيكل وتأثيرات صوت استريو على عكس النماذج الرائدة الأخرى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp