HyperAIHyperAI
منذ 16 أيام

ماجيك فيديو: إنشاء فيديو بكفاءة باستخدام نماذج التفتيت الخفي

Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi Feng
ماجيك فيديو: إنشاء فيديو بكفاءة باستخدام نماذج التفتيت الخفي
الملخص

نقدم إطارًا فعّالًا لإنشاء مقاطع فيديو من النص، يعتمد على نماذج التشتت في الفضاء المخفي، ويُسمّى MagicVideo. يمكن لـ MagicVideo إنتاج مقاطع فيديو سلسة تتماشى تمامًا مع الوصف النصي المقدم. وبفضل تصميم مبتكر وفعّال لنموذج U-Net ثلاثي الأبعاد، ونمذجة توزيعات الفيديو في فضاء ثنائي الأبعاد منخفض، يُمكن لـ MagicVideo توليد مقاطع فيديو بحلّة 256x256 على بطاقة وحدة معالجة رسومية واحدة، وذلك بحوالي 64 مرة أقل في عدد العمليات الحسابية (FLOPs) مقارنةً بنماذج التشتت في الفيديو (Video Diffusion Models (VDM)). وبالتحديد، على عكس الدراسات السابقة التي تدرّب نماذج الفيديو مباشرة في فضاء الألوان RGB، نستخدم نموذجًا مُدرّبًا مسبقًا (VAE) لتحويل مقاطع الفيديو إلى فضاء مخفي ثنائي الأبعاد منخفض، ونُدرّب نموذج التشتت لفهم توزيع رموز الفيديو في هذا الفضاء المخفي. بالإضافة إلى ذلك، نقدّم تصميمين جديدين لتعديل نموذج U-Net المُدرّب سابقًا على مهام الصور ليكون مناسبًا لبيانات الفيديو: أولًا، مُعدّل خفيف يُطبّق على كل إطار بشكل منفصل لضبط التوزيع من الصورة إلى الفيديو، وثانيًا، وحدة انتباه زمنية موجهة لالتقاط الاعتماديات الزمنية بين الإطارات. وبهذا، يمكننا الاستفادة من الأوزان المفيدة لعمليات التصفية (convolution operators) من نموذج توليد الصور من النص لتسريع عملية تدريب الفيديو. ولتحسين جودة إعادة بناء الألوان في الفيديو وتجنب ظاهرة التذبذب البكسيلي (pixel dithering)، نقترح أيضًا نموذجًا جديدًا لـ VideoVAE كمُعمّل تشفير-إعادة بناء (auto-encoder) لتحسين إعادة بناء القيم RGB. أجرينا تجارب واسعة وبيّنا أن MagicVideo قادر على إنتاج مقاطع فيديو عالية الجودة، سواء كانت محتواها واقعيًا أو خياليًا. لمزيد من الأمثلة، يُرجى زيارة: \url{https://magicvideo.github.io/#}

ماجيك فيديو: إنشاء فيديو بكفاءة باستخدام نماذج التفتيت الخفي | أحدث الأوراق البحثية | HyperAI