HyperAIHyperAI
منذ 3 أشهر

توليد الصوت من النص باستخدام نموذج لغوي كبير مُدرَّب على التعليم والنموذج التفاضلي الكامن

Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
توليد الصوت من النص باستخدام نموذج لغوي كبير مُدرَّب على التعليم والنموذج التفاضلي الكامن
الملخص

يُمكّن الحجم الهائل للنماذج اللغوية الكبيرة (LLM) الحديثة من امتلاك العديد من الخصائص المثيرة للاهتمام، مثل التدريب المُوجَّه بالتعليمات والتدريب القائم على سلسلة التفكير، مما ساهم في تحسين كبير في الأداء عند استخدام النموذج في المهام التي تتطلب صفر أو عدد قليل من الأمثلة (zero- and few-shot) في مجال معالجة اللغة الطبيعية (NLP). مستوحى من هذه النجاحات، نستخدم نموذج LLM المُعدَّل بالتعليمات Flan-T5 كمُشفر نصي (text encoder) لمهام التوليد النصي-الصوتي (Text-to-Audio, TTA) – وهي مهمة تهدف إلى إنتاج صوت بناءً على وصف نصي. أما الدراسات السابقة في مجال TTA فقد اعتمدت إما على تدريب نموذج مُشفر نصي-صوتي مشترك مسبقًا، أو استخدمت نماذج غير مُعدَّلة بالتعليمات، مثل T5. وبذلك، يتفوق نهجنا القائم على نموذج التمايز الخفي (Latent Diffusion Model, LDM) المسمى TANGO على أفضل النماذج الحالية (AudioLDM) في معظم المقاييس، ويحافظ على أداء مماثل في البقية، وذلك على مجموعة اختبار AudioCaps، رغم تدريب نموذج LDM على مجموعة بيانات أصغر بـ 63 مرة، مع الحفاظ على تجميد المُشفر النصي. وقد يُعزى هذا التحسن أيضًا إلى استخدام تقنية خلط الصوت القائمة على مستوى ضغط الصوت (audio pressure level-based sound mixing) لتعزيز مجموعة التدريب، بينما كانت الطرق السابقة تعتمد على خلط عشوائي.