شو-1: الجمع بين نماذج التمايز البكسلية واللاتينية لتصنيع الفيديو من النص

تم تحقيق تقدم كبير في مجال النماذج الكبيرة المُدرَّبة مسبقًا لتحويل النص إلى فيديو باستخدام نماذج التمايز (VDMs). ومع ذلك، تعتمد الطرق السابقة إما على نماذج VDM القائمة على البكسل، والتي تتميز بتكاليف حسابية عالية، أو على نماذج VDM القائمة على الفضاء المختبئ (latent)، والتي غالبًا ما تعاني من صعوبات في تحقيق التزامن الدقيق بين النص والفيديو. في هذا البحث، نقدم أول نموذج هجين، يُسمى Show-1، يدمج بين النماذج القائمة على البكسل والنموذج القائم على الفضاء المختبئ لتحويل النص إلى فيديو. يبدأ نموذجنا باستخدام نماذج VDM القائمة على البكسل لإنتاج فيديو منخفض الدقة يتميز بعلاقة قوية بين النص والفيديو. ثم نقترح طريقة جديدة تُسمى "الترجمة الخبيرة" (expert translation)، تعتمد على نماذج VDM القائمة على الفضاء المختبئ لرفع دقة الفيديو المنخفض، مع إمكانية إزالة أي تشوهات أو عيوب محتملة ناتجة عن الفيديو منخفض الدقة. مقارنةً بالنماذج القائمة على الفضاء المختبئ، يمكن لنموذج Show-1 إنتاج فيديوهات عالية الجودة ذات تزامن دقيق بين النص والفيديو؛ أما مقارنةً بالنماذج القائمة على البكسل، فإن Show-1 أكثر كفاءة بشكل كبير (حيث تبلغ استهلاك ذاكرة GPU أثناء التنبؤ 15 غيغابايت مقابل 72 غيغابايت). علاوةً على ذلك، يمكن تكييف نموذج Show-1 بسهولة لتطبيقات تخصيص الحركة وتنميط الفيديو من خلال عملية تدريب رفيع (fine-tuning) بسيطة للطبقة الزمنية للانتباه. وحقق نموذجنا أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في معايير توليد الفيديو القياسية. يمكن الوصول إلى الكود ووزن النموذج بشكل عام عبر الرابط التالي: https://github.com/showlab/Show-1.