منذ 6 أشهر

الملخص

تم تحقيق تقدم كبير في مجال النماذج الكبيرة المُدرَّبة مسبقًا لتحويل النص إلى فيديو باستخدام نماذج التمايز (VDMs). ومع ذلك، تعتمد الطرق السابقة إما على نماذج VDM القائمة على البكسل، والتي تتميز بتكاليف حسابية عالية، أو على نماذج VDM القائمة على الفضاء المختبئ (latent)، والتي غالبًا ما تعاني من صعوبات في تحقيق التزامن الدقيق بين النص والفيديو. في هذا البحث، نقدم أول نموذج هجين، يُسمى Show-1، يدمج بين النماذج القائمة على البكسل والنموذج القائم على الفضاء المختبئ لتحويل النص إلى فيديو. يبدأ نموذجنا باستخدام نماذج VDM القائمة على البكسل لإنتاج فيديو منخفض الدقة يتميز بعلاقة قوية بين النص والفيديو. ثم نقترح طريقة جديدة تُسمى "الترجمة الخبيرة" (expert translation)، تعتمد على نماذج VDM القائمة على الفضاء المختبئ لرفع دقة الفيديو المنخفض، مع إمكانية إزالة أي تشوهات أو عيوب محتملة ناتجة عن الفيديو منخفض الدقة. مقارنةً بالنماذج القائمة على الفضاء المختبئ، يمكن لنموذج Show-1 إنتاج فيديوهات عالية الجودة ذات تزامن دقيق بين النص والفيديو؛ أما مقارنةً بالنماذج القائمة على البكسل، فإن Show-1 أكثر كفاءة بشكل كبير (حيث تبلغ استهلاك ذاكرة GPU أثناء التنبؤ 15 غيغابايت مقابل 72 غيغابايت). علاوةً على ذلك، يمكن تكييف نموذج Show-1 بسهولة لتطبيقات تخصيص الحركة وتنميط الفيديو من خلال عملية تدريب رفيع (fine-tuning) بسيطة للطبقة الزمنية للانتباه. وحقق نموذجنا أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في معايير توليد الفيديو القياسية. يمكن الوصول إلى الكود ووزن النموذج بشكل عام عبر الرابط التالي: https://github.com/showlab/Show-1.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شو-1: الجمع بين نماذج التمايز البكسلية واللاتينية لتصنيع الفيديو من النص

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شو-1: الجمع بين نماذج التمايز البكسلية واللاتينية لتصنيع الفيديو من النص

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شو-1: الجمع بين نماذج التمايز البكسلية واللاتينية لتصنيع الفيديو من النص

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin