منذ 6 أشهر

الملخص

لقد دفعت التطورات الحديثة في نماذج الانتشار (diffusion models) والأنظمة اللغوية الكبيرة (LLMs) تقدماً كبيراً في مجال إنشاء المحتوى باستخدام الذكاء الاصطناعي (AIGC). ويُعد توليد الصوت من النص (Text-to-Audio - TTA)، وهو تطبيق ناشئ ضمن مجال AIGC مصمم لتوليد صوت من أوامر نصية طبيعية، موضوعاً يجذب اهتماماً متزايداً. ومع ذلك، تواجه الدراسات الحالية المتعلقة بـ TTA صعوبات في جودة التوليد وتوافق النص مع الصوت، خاصةً عند التعامل مع مدخلات نصية معقدة. مستوحين من أحدث النماذج في مجال توليد الصور من النص (Text-to-Image - T2I)، نقدم نظام Auffusion، وهو نظام TTA يُعدّل إطار عمل نماذج T2I ليُطبّق على مهام TTA، وذلك من خلال الاستفادة الفعالة من قدرات التوليد المتأصلة في هذه النماذج وتماسك التوافق عبر الوسائط (cross-modal alignment) بدقة. تُظهر التقييمات الموضوعية والذاتية أن Auffusion يتفوق على الطرق السابقة في TTA، حتى عند استخدام بيانات محدودة وموارد حوسبة محدودة. علاوةً على ذلك، تُظهر الدراسات السابقة في مجال T2I التأثير الكبير لاختيار المشفر (encoder) على التوافق عبر الوسائط، مثل التفاصيل الدقيقة والربط بين الكائنات، في حين أن مثل هذه التقييمات غائبة في الأبحاث السابقة المتعلقة بـ TTA. من خلال دراسات تحليلية شاملة (ablation studies) وتصورات مبتكرة لخرائط الانتباه المتقاطع (cross-attention maps)، نقدم تقييماً عميقاً لتوافق النص مع الصوت في مهام TTA. تكشف نتائجنا عن القدرة المتميزة لـ Auffusion في إنتاج أصوات تتطابق بدقة مع الوصف النصي، وهو ما يُثبت مجدداً في مهام متعددة ذات صلة، مثل نقل نمط الصوت (audio style transfer)، واستكمال الصوت (inpainting)، والتعديلات الأخرى. تتوفر الإصدار التجريبي والتطبيقات التوضيحية لنظام Auffusion عبر الرابط: https://auffusion.github.io.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أوفوسيون: استغلال قوة التمايز والنماذج اللغوية الكبيرة لإنشاء الصوت من النص

Jinlong Xue Yayue Deng Yingming Gao Ya Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters