نموذج تجريبي لتوليد الفيديو Pusa-VidGen
1. مقدمة البرنامج التعليمي

Pusa V1 هو نموذج فعال لتوليد الفيديو متعدد الوسائط، اقترحه فريق Yaofang-Liu في 25 يوليو 2025. يعتمد هذا النموذج على التكيف مع الخطوات الزمنية المتجهة (VTA)، ويعالج المشكلات الأساسية لنماذج توليد الفيديو التقليدية، مثل ارتفاع تكلفة التدريب، وانخفاض كفاءة الاستدلال، وضعف الاتساق الزمني. بخلاف الطرق التقليدية التي تعتمد على كميات كبيرة من البيانات وقوة الحوسبة، يحقق Pusa V1 تحسينات ثورية استنادًا إلى Wan2.1-T2V-14B من خلال استراتيجية ضبط دقيق سهلة الاستخدام. تبلغ تكلفة تدريبه 500 دولار أمريكي فقط (أي ما يعادل 1/200 من تكلفة النماذج المماثلة)، وتتطلب مجموعة بياناته عينات بدقة 4K فقط (أي ما يعادل 1/2500 من تكلفة النماذج المماثلة). يمكن إكمال التدريب على ثماني وحدات معالجة رسومية (GPU) بسعة 80 جيجابايت، مما يُقلل بشكل كبير من صعوبة دخول تقنية توليد الفيديو. علاوة على ذلك، يتميز البرنامج بقدرات تعدد مهام قوية، فهو لا يدعم فقط الفيديو الموجه بالنص (T2V) والفيديو الموجه بالصور (I2V)، بل يدعم أيضًا مهام اللقطة الصفرية مثل إكمال الفيديو، وتوليد الإطار الأول والأخير، والانتقالات بين المشاهد، مما يُغني عن الحاجة إلى تدريب إضافي خاص بكل مشهد. والأهم من ذلك، أن أداء التوليد فيه متميز بشكل خاص. يعتمد البرنامج على استراتيجية استدلال من بضع خطوات (يمكن لعشر خطوات أن تتجاوز النموذج الأساسي)، وتصل النتيجة الإجمالية لبرنامج VBench-I2V إلى 87.32%، مع أداء ممتاز في استعادة التفاصيل الديناميكية (مثل حركة الأطراف، وتغيرات الضوء والظل) والتماسك الزمني. بالإضافة إلى ذلك، لا تقتصر آلية التكيف غير التدميري التي تحققها تقنية VTA على إضافة قدرات ديناميكية زمنية إلى النموذج الأساسي فحسب، بل تحافظ أيضًا على جودة توليد الصورة للنموذج الأصلي، محققةً تأثير "1+1>2". على مستوى النشر، يتميز النظام بانخفاض زمن وصول الاستدلال، مما يُلبي احتياجات متنوعة، من المعاينة السريعة إلى الإخراج عالي الدقة، وهو مناسب لسيناريوهات مثل التصميم الإبداعي وإنتاج الفيديوهات القصيرة. نتائج البحث ذات الصلة هي: PUSA V1.0: تجاوز Wan-I2V بتكلفة تدريب $500 من خلال التكيف مع الخطوة الزمنية المتجهة ".
يستخدم هذا البرنامج التعليمي موارد RTX A6000 ثنائية البطاقة.
2. أمثلة المشاريع
1. تحويل الصورة إلى فيديو

2. تحويل الإطارات المتعددة إلى فيديو

3. فيديو إلى فيديو

4. تحويل النص إلى فيديو

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
2.1 تحويل الصورة إلى فيديو

وصف المعلمة
- معلمات التوليد
- مضاعف الضوضاء: قابل للتعديل من 0.0 إلى 1.0، الافتراضي 0.2 (القيم المنخفضة أكثر دقة لصورة الإدخال، والقيم الأعلى أكثر إبداعًا).
- LoRA Alpha: 0.1-5.0 قابل للتعديل، الافتراضي 1.4 (يتحكم في اتساق الأسلوب، إذا كان مرتفعًا جدًا فسوف يصبح متيبسًا، وإذا كان منخفضًا جدًا فسوف يفقد التماسك).
- خطوات الاستدلال: قابلة للتعديل من 1 إلى 50، والافتراضي هو 10 (كلما زاد عدد الخطوات، أصبحت التفاصيل أكثر ثراءً، ولكن الوقت المستغرق يزداد خطيًا).
2.2 إطارات متعددة للفيديو

وصف المعلمة
- معلمات التكييف
- مواضع التكييف: مؤشرات الإطارات المنفصلة بفاصلة (على سبيل المثال، "0,20" تحدد نقاط الوقت للإطارات الرئيسية في الفيديو).
- مضاعفات الضوضاء: قيم مفصولة بفواصل من 0.0 إلى 1.0 (على سبيل المثال "0.2،0.5"، والتي تتوافق مع الحرية الإبداعية لكل إطار رئيسي، والقيم المنخفضة أكثر إخلاصًا للإطار، والقيم الأعلى أكثر تنوعًا).
- معلمات التوليد
- LoRA Alpha: 0.1-5.0 قابل للتعديل، الافتراضي 1.4 (يتحكم في اتساق الأسلوب، إذا كان مرتفعًا جدًا فسوف يصبح متيبسًا، وإذا كان منخفضًا جدًا فسوف يفقد التماسك).
- خطوات الاستدلال: قابلة للتعديل من 1 إلى 50، والافتراضي هو 10 (كلما زاد عدد الخطوات، أصبحت التفاصيل أكثر ثراءً، ولكن الوقت المستغرق يزداد خطيًا).
2.3 فيديو إلى فيديو

وصف المعلمة
- معلمات التكييف
- مواضع التكييف: مؤشرات الإطارات المنفصلة بفاصلة (على سبيل المثال، "0،1،2،3"، والتي تحدد مواضع الإطارات الرئيسية في الفيديو الأصلي المستخدم لتوليد القيد، مطلوبة).
- مضاعفات الضوضاء: القيم المنفصلة بفاصلة من 0.0 إلى 1.0 (على سبيل المثال "0.0،0.3"، والتي تتوافق مع درجة تأثير كل إطار مشروط، والقيم المنخفضة أقرب إلى الإطار الأصلي، والقيم الأعلى أكثر مرونة).
- معلمات التوليد
- LoRA Alpha: 0.1-5.0 قابل للتعديل، الافتراضي 1.4 (يتحكم في اتساق الأسلوب، إذا كان مرتفعًا جدًا فسوف يصبح متيبسًا، وإذا كان منخفضًا جدًا فسوف يفقد التماسك).
- خطوات الاستدلال: قابلة للتعديل من 1 إلى 50، والافتراضي هو 10 (كلما زاد عدد الخطوات، أصبحت التفاصيل أكثر ثراءً، ولكن الوقت المستغرق يزداد خطيًا).
2.4 تحويل النص إلى فيديو

وصف المعلمة
- معلمات التوليد
- LoRA Alpha: 0.1-5.0 قابل للتعديل، الافتراضي 1.4 (يتحكم في اتساق الأسلوب، إذا كان مرتفعًا جدًا فسوف يصبح متيبسًا، وإذا كان منخفضًا جدًا فسوف يفقد التماسك).
- خطوات الاستدلال: قابلة للتعديل من 1 إلى 50، والافتراضي هو 10 (كلما زاد عدد الخطوات، أصبحت التفاصيل أكثر ثراءً، ولكن الوقت المستغرق يزداد خطيًا).
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{liu2025pusa,
title={PUSA V1. 0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation},
author={Liu, Yaofang and Ren, Yumeng and Artola, Aitor and Hu, Yuxuan and Cun, Xiaodong and Zhao, Xiaotong and Zhao, Alan and Chan, Raymond H and Zhang, Suiyun and Liu, Rui and others},
journal={arXiv preprint arXiv:2507.16116},
year={2025}
}
@misc{Liu2025pusa,
title={Pusa: Thousands Timesteps Video Diffusion Model},
author={Yaofang Liu and Rui Liu},
year={2025},
url={https://github.com/Yaofang-Liu/Pusa-VidGen},
}
@article{liu2024redefining,
title={Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach},
author={Liu, Yaofang and Ren, Yumeng and Cun, Xiaodong and Artola, Aitor and Liu, Yang and Zeng, Tieyong and Chan, Raymond H and Morel, Jean-michel},
journal={arXiv preprint arXiv:2410.03160},
year={2024}
}