الملخص

رغم وجود نقاط مشتركة في توليد الصوت عبر أنواع مختلفة من الصوت، مثل الكلام والموسيقى ومفعولات الصوت، فإن تصميم نماذج لكل نوع يتطلب مراعاة أهداف وانحيازات محددة يمكن أن تختلف بشكل كبير عن تلك الخاصة بأنواع أخرى. لتقريبنا أكثر نحو رؤية موحدة لتوليد الصوت، يقترح هذا البحث إطارًا يستخدم نفس طريقة التعلم لتوليد الكلام والموسيقى ومفعولات الصوت. يُقدم الإطار مقولة تمثيل عام للصوت تُعرف بـ "لغة الصوت" (LOA). يمكن تحويل أي صوت إلى LOA اعتمادًا على AudioMAE، وهو نموذج تعلم تمثيلي ذاتي-إشرافي مسبق التدريب. في عملية التوليد، نقوم بتحويل أي حاسوبية إلى LOA باستخدام نموذج GPT-2، ونقوم بتعلم توليد الصوت ذاتي-الإشراف مع نموذج انتشار ضمني مشروط على LOA. يوفر الإطار المقترح مزايا طبيعية مثل قدرات التعلم السياقي وإعادة استخدام النماذج الذاتية-الإشرافية المسبقة التدريب من AudioMAE ونموذج الانتشار ضمني. أظهرت التجارب على المعايير الرئيسية لتحويل النص إلى صوت وتحويل النص إلى موسيقى وتحويل النص إلى كلام أداءً عالي الجودة أو تنافسيًا مقابل الأساليب السابقة. يمكن الوصول إلى شفرتنا والنماذج المسبقة التدريب والعرض التوضيحي عبر الرابط: https://audioldm.github.io/audioldm2.请注意，这里“حاسوبية”（computational modality）并不是一个常见的术语，因此在实际翻译中我保留了“modalities”一词，并在后面加了括号标注原文。此外，“latent diffusion model”被翻译为“نموذج انتشار ضمني”，这是该模型在阿拉伯语中的通用译法。

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

AudioLDM 2: تعلم إنشاء الصوت الشامل باستخدام التدريب الذاتي الأولي

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLDM 2: تعلم إنشاء الصوت الشامل باستخدام التدريب الذاتي الأولي

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLDM 2: تعلم إنشاء الصوت الشامل باستخدام التدريب الذاتي الأولي

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters