HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLDM 2: تعلم إنشاء الصوت الشامل باستخدام التدريب الذاتي الأولي

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

الملخص

رغم وجود نقاط مشتركة في توليد الصوت عبر أنواع مختلفة من الصوت، مثل الكلام والموسيقى ومفعولات الصوت، فإن تصميم نماذج لكل نوع يتطلب مراعاة أهداف وانحيازات محددة يمكن أن تختلف بشكل كبير عن تلك الخاصة بأنواع أخرى. لتقريبنا أكثر نحو رؤية موحدة لتوليد الصوت، يقترح هذا البحث إطارًا يستخدم نفس طريقة التعلم لتوليد الكلام والموسيقى ومفعولات الصوت. يُقدم الإطار مقولة تمثيل عام للصوت تُعرف بـ "لغة الصوت" (LOA). يمكن تحويل أي صوت إلى LOA اعتمادًا على AudioMAE، وهو نموذج تعلم تمثيلي ذاتي-إشرافي مسبق التدريب. في عملية التوليد، نقوم بتحويل أي حاسوبية إلى LOA باستخدام نموذج GPT-2، ونقوم بتعلم توليد الصوت ذاتي-الإشراف مع نموذج انتشار ضمني مشروط على LOA. يوفر الإطار المقترح مزايا طبيعية مثل قدرات التعلم السياقي وإعادة استخدام النماذج الذاتية-الإشرافية المسبقة التدريب من AudioMAE ونموذج الانتشار ضمني. أظهرت التجارب على المعايير الرئيسية لتحويل النص إلى صوت وتحويل النص إلى موسيقى وتحويل النص إلى كلام أداءً عالي الجودة أو تنافسيًا مقابل الأساليب السابقة. يمكن الوصول إلى شفرتنا والنماذج المسبقة التدريب والعرض التوضيحي عبر الرابط: https://audioldm.github.io/audioldm2.请注意,这里“حاسوبية”(computational modality)并不是一个常见的术语,因此在实际翻译中我保留了“modalities”一词,并在后面加了括号标注原文。此外,“latent diffusion model”被翻译为“نموذج انتشار ضمني”,这是该模型在阿拉伯语中的通用译法。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp