HyperAIHyperAI

Command Palette

Search for a command to run...

شو-1: الجمع بين نماذج التمايز البكسلية واللاتينية لتصنيع الفيديو من النص

الملخص

تم تحقيق تقدم كبير في مجال النماذج الكبيرة المُدرَّبة مسبقًا لتحويل النص إلى فيديو باستخدام نماذج التمايز (VDMs). ومع ذلك، تعتمد الطرق السابقة إما على نماذج VDM القائمة على البكسل، والتي تتميز بتكاليف حسابية عالية، أو على نماذج VDM القائمة على الفضاء المختبئ (latent)، والتي غالبًا ما تعاني من صعوبات في تحقيق التزامن الدقيق بين النص والفيديو. في هذا البحث، نقدم أول نموذج هجين، يُسمى Show-1، يدمج بين النماذج القائمة على البكسل والنموذج القائم على الفضاء المختبئ لتحويل النص إلى فيديو. يبدأ نموذجنا باستخدام نماذج VDM القائمة على البكسل لإنتاج فيديو منخفض الدقة يتميز بعلاقة قوية بين النص والفيديو. ثم نقترح طريقة جديدة تُسمى "الترجمة الخبيرة" (expert translation)، تعتمد على نماذج VDM القائمة على الفضاء المختبئ لرفع دقة الفيديو المنخفض، مع إمكانية إزالة أي تشوهات أو عيوب محتملة ناتجة عن الفيديو منخفض الدقة. مقارنةً بالنماذج القائمة على الفضاء المختبئ، يمكن لنموذج Show-1 إنتاج فيديوهات عالية الجودة ذات تزامن دقيق بين النص والفيديو؛ أما مقارنةً بالنماذج القائمة على البكسل، فإن Show-1 أكثر كفاءة بشكل كبير (حيث تبلغ استهلاك ذاكرة GPU أثناء التنبؤ 15 غيغابايت مقابل 72 غيغابايت). علاوةً على ذلك، يمكن تكييف نموذج Show-1 بسهولة لتطبيقات تخصيص الحركة وتنميط الفيديو من خلال عملية تدريب رفيع (fine-tuning) بسيطة للطبقة الزمنية للانتباه. وحقق نموذجنا أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في معايير توليد الفيديو القياسية. يمكن الوصول إلى الكود ووزن النموذج بشكل عام عبر الرابط التالي: https://github.com/showlab/Show-1.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شو-1: الجمع بين نماذج التمايز البكسلية واللاتينية لتصنيع الفيديو من النص | مستندات | HyperAI