HyperAIHyperAI
منذ 16 أيام

توليد النص إلى الصوت المدعوم بالاسترجاع

Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
توليد النص إلى الصوت المدعوم بالاسترجاع
الملخص

على الرغم من التقدم الأخير في إنشاء الصوت من النص (TTA)، نُظهر أن النماذج الرائدة حاليًا، مثل AudioLDM، التي تم تدريبها على مجموعات بيانات تُظهر توزيعًا غير متوازن بين الفئات، مثل AudioCaps، تعاني من انحياز في أدائها الإنشائي. وبشكل خاص، تُظهر أداءً متميزًا في إنشاء فئات الصوت الشائعة، بينما تُعاني في فئات الصوت النادرة، مما يؤدي إلى تدهور الأداء العام للإدخال. نُشير إلى هذه المشكلة باسم "إنشاء الصوت من النص ذو التوزيع الطويل الذيل" (long-tailed text-to-audio generation). لمعالجة هذه المشكلة، نقترح نهجًا بسيطًا مُعززًا بالاسترجاع (retrieval-augmented) للنماذج TTA. وبشكل محدد، عند تلقي نص مُدخل، نستخدم أولًا نموذج التدريب المُقارن بين اللغة والصوت (CLAP) لاسترجاع أزواج نص-صوت ذات صلة. ثم تُستخدم الميزات الخاصة بالبيانات الصوتية-النصية المسترجعة كشروط إضافية لتوجيه عملية التعلم في نماذج TTA. ونُعزز نموذج AudioLDM باستخدام النهج المقترح، ونُسمّي النظام المُحسّن الناتج باسم Re-AudioLDM. على مجموعة بيانات AudioCaps، يحقق Re-AudioLDM أفضل أداء مُسجّل حتى الآن من حيث مسافة فريشيت للصوت (FAD) بقيمة 1.37، متفوقًا بشكل كبير على الطرق الحالية. علاوةً على ذلك، نُظهر أن Re-AudioLDM قادر على إنشاء صوت واقعي لمشاهد معقدة، وفئات صوت نادرة، وحتى أنواع صوت لم تُرَ من قبل، مما يُشير إلى إمكاناته الكبيرة في مهام إنشاء الصوت من النص.

توليد النص إلى الصوت المدعوم بالاسترجاع | أحدث الأوراق البحثية | HyperAI