HyperAIHyperAI
منذ 11 أيام

أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص
الملخص

لقد دفعت التطورات الحديثة في نماذج الانتشار (diffusion models) والأنظمة اللغوية الكبيرة (LLMs) تقدماً كبيراً في مجال إنشاء المحتوى باستخدام الذكاء الاصطناعي (AIGC). ويُعد توليد الصوت من النص (Text-to-Audio - TTA)، وهو تطبيق ناشئ ضمن مجال AIGC مصمم لتوليد صوت من أوامر نصية طبيعية، موضوعاً يجذب اهتماماً متزايداً. ومع ذلك، تواجه الدراسات الحالية المتعلقة بـ TTA صعوبات في جودة التوليد وتوافق النص مع الصوت، خاصةً عند التعامل مع مدخلات نصية معقدة. مستوحين من أحدث النماذج في مجال توليد الصور من النص (Text-to-Image - T2I)، نقدم نظام Auffusion، وهو نظام TTA يُعدّل إطار عمل نماذج T2I ليُطبّق على مهام TTA، وذلك من خلال الاستفادة الفعالة من قدرات التوليد المتأصلة في هذه النماذج وتماسك التوافق عبر الوسائط (cross-modal alignment) بدقة. تُظهر التقييمات الموضوعية والذاتية أن Auffusion يتفوق على الطرق السابقة في TTA، حتى عند استخدام بيانات محدودة وموارد حوسبة محدودة. علاوةً على ذلك، تُظهر الدراسات السابقة في مجال T2I التأثير الكبير لاختيار المشفر (encoder) على التوافق عبر الوسائط، مثل التفاصيل الدقيقة والربط بين الكائنات، في حين أن مثل هذه التقييمات غائبة في الأبحاث السابقة المتعلقة بـ TTA. من خلال دراسات تحليلية شاملة (ablation studies) وتصورات مبتكرة لخرائط الانتباه المتقاطع (cross-attention maps)، نقدم تقييماً عميقاً لتوافق النص مع الصوت في مهام TTA. تكشف نتائجنا عن القدرة المتميزة لـ Auffusion في إنتاج أصوات تتطابق بدقة مع الوصف النصي، وهو ما يُثبت مجدداً في مهام متعددة ذات صلة، مثل نقل نمط الصوت (audio style transfer)، واستكمال الصوت (inpainting)، والتعديلات الأخرى. تتوفر الإصدار التجريبي والتطبيقات التوضيحية لنظام Auffusion عبر الرابط: https://auffusion.github.io.

أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص | أحدث الأوراق البحثية | HyperAI