VideoCrafter2: التغلب على قيود البيانات لنموذج تمايز الفيديو عالي الجودة

تهدف إنشاء مقاطع الفيديو من النص إلى إنتاج فيديو بناءً على مُدخل نصي معين. في الآونة الأخيرة، تمكّنت عدة نماذج تجارية للفيديو من إنشاء مقاطع فيديو واقعية بضوضاء منخفضة جدًا، وتفاصيل ممتازة، ودرجات جمالية عالية. ومع ذلك، تعتمد هذه النماذج على مجموعات بيانات ضخمة ومُنظفة جيدًا من مقاطع الفيديو عالية الجودة، والتي لا تتوفر للمجتمع العلمي بشكل عام. تعاني العديد من الدراسات الحالية، التي تقوم بتدريب النماذج باستخدام مجموعة بيانات WebVid-10M من الجودة المنخفضة، من صعوبة إنتاج مقاطع فيديو عالية الجودة، لأن النماذج تُعدّ لتناسب مجموعة WebVid-10M. في هذا العمل، نستكشف مخطط التدريب للنماذج الفيديوية المستمدة من Stable Diffusion، ونستعرض إمكانية الاستفادة من مقاطع الفيديو منخفضة الجودة والصور عالية الجودة المُولَّدة اصطناعيًا للحصول على نموذج فيديو عالي الجودة. نبدأ بتحليل العلاقة بين الوحدات المكانية والزمنية في نماذج الفيديو، والانزياح في التوزيع نحو مقاطع فيديو منخفضة الجودة. ونلاحظ أن التدريب الكامل لجميع الوحدات يؤدي إلى ترابط أقوى بين الوحدات المكانية والزمنية مقارنةً بتدريب الوحدات الزمنية فقط. واستنادًا إلى هذا الترابط الأقوى، نقوم بتحديث توزيع الجودة نحو الأعلى دون فقدان في الحركة من خلال تدريب الوحدات المكانية باستخدام صور عالية الجودة، ما يُنتج نموذجًا عامًا للفيديو عالي الجودة. وتم إجراء تقييمات لتأكيد تفوق الطريقة المقترحة، خاصةً من حيث جودة الصورة، والحركة، وتركيب المفاهيم.