HyperAIHyperAI

Command Palette

Search for a command to run...

أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

لقد دفعت التطورات الحديثة في نماذج الانتشار (diffusion models) والأنظمة اللغوية الكبيرة (LLMs) تقدماً كبيراً في مجال إنشاء المحتوى باستخدام الذكاء الاصطناعي (AIGC). ويُعد توليد الصوت من النص (Text-to-Audio - TTA)، وهو تطبيق ناشئ ضمن مجال AIGC مصمم لتوليد صوت من أوامر نصية طبيعية، موضوعاً يجذب اهتماماً متزايداً. ومع ذلك، تواجه الدراسات الحالية المتعلقة بـ TTA صعوبات في جودة التوليد وتوافق النص مع الصوت، خاصةً عند التعامل مع مدخلات نصية معقدة. مستوحين من أحدث النماذج في مجال توليد الصور من النص (Text-to-Image - T2I)، نقدم نظام Auffusion، وهو نظام TTA يُعدّل إطار عمل نماذج T2I ليُطبّق على مهام TTA، وذلك من خلال الاستفادة الفعالة من قدرات التوليد المتأصلة في هذه النماذج وتماسك التوافق عبر الوسائط (cross-modal alignment) بدقة. تُظهر التقييمات الموضوعية والذاتية أن Auffusion يتفوق على الطرق السابقة في TTA، حتى عند استخدام بيانات محدودة وموارد حوسبة محدودة. علاوةً على ذلك، تُظهر الدراسات السابقة في مجال T2I التأثير الكبير لاختيار المشفر (encoder) على التوافق عبر الوسائط، مثل التفاصيل الدقيقة والربط بين الكائنات، في حين أن مثل هذه التقييمات غائبة في الأبحاث السابقة المتعلقة بـ TTA. من خلال دراسات تحليلية شاملة (ablation studies) وتصورات مبتكرة لخرائط الانتباه المتقاطع (cross-attention maps)، نقدم تقييماً عميقاً لتوافق النص مع الصوت في مهام TTA. تكشف نتائجنا عن القدرة المتميزة لـ Auffusion في إنتاج أصوات تتطابق بدقة مع الوصف النصي، وهو ما يُثبت مجدداً في مهام متعددة ذات صلة، مثل نقل نمط الصوت (audio style transfer)، واستكمال الصوت (inpainting)، والتعديلات الأخرى. تتوفر الإصدار التجريبي والتطبيقات التوضيحية لنظام Auffusion عبر الرابط: https://auffusion.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp