AudioLDM 2: تعلم إنشاء الصوت الشامل باستخدام التدريب الذاتي الأولي

رغم وجود نقاط مشتركة في توليد الصوت عبر أنواع مختلفة من الصوت، مثل الكلام والموسيقى ومفعولات الصوت، فإن تصميم نماذج لكل نوع يتطلب مراعاة أهداف وانحيازات محددة يمكن أن تختلف بشكل كبير عن تلك الخاصة بأنواع أخرى. لتقريبنا أكثر نحو رؤية موحدة لتوليد الصوت، يقترح هذا البحث إطارًا يستخدم نفس طريقة التعلم لتوليد الكلام والموسيقى ومفعولات الصوت. يُقدم الإطار مقولة تمثيل عام للصوت تُعرف بـ "لغة الصوت" (LOA). يمكن تحويل أي صوت إلى LOA اعتمادًا على AudioMAE، وهو نموذج تعلم تمثيلي ذاتي-إشرافي مسبق التدريب. في عملية التوليد، نقوم بتحويل أي حاسوبية إلى LOA باستخدام نموذج GPT-2، ونقوم بتعلم توليد الصوت ذاتي-الإشراف مع نموذج انتشار ضمني مشروط على LOA. يوفر الإطار المقترح مزايا طبيعية مثل قدرات التعلم السياقي وإعادة استخدام النماذج الذاتية-الإشرافية المسبقة التدريب من AudioMAE ونموذج الانتشار ضمني. أظهرت التجارب على المعايير الرئيسية لتحويل النص إلى صوت وتحويل النص إلى موسيقى وتحويل النص إلى كلام أداءً عالي الجودة أو تنافسيًا مقابل الأساليب السابقة. يمكن الوصول إلى شفرتنا والنماذج المسبقة التدريب والعرض التوضيحي عبر الرابط: https://audioldm.github.io/audioldm2.请注意,这里“حاسوبية”(computational modality)并不是一个常见的术语,因此在实际翻译中我保留了“modalities”一词,并在后面加了括号标注原文。此外,“latent diffusion model”被翻译为“نموذج انتشار ضمني”,这是该模型在阿拉伯语中的通用译法。