إنشاء فيديو ذاتي الإجبار في الوقت الفعلي
1. مقدمة البرنامج التعليمي

اقترح فريق Xun Huang في 9 يونيو 2025 تقنية "الإجبار الذاتي". وهي نموذج تدريب جديد لنماذج انتشار الفيديو ذاتية الانحدار. وتحل هذه التقنية مشكلة انحياز التعريض طويلة الأمد، حيث يتعين على النماذج المدربة على سياق حقيقي توليد تسلسلات بناءً على مخرجاتها غير الكاملة أثناء الاستدلال. وخلافًا للطرق السابقة التي تُزيل تشويش الإطارات المستقبلية بناءً على إطارات السياق الحقيقي، تُحدد تقنية "الإجبار الذاتي" توليد كل إطار بناءً على المخرجات ذاتية الانحدار السابقة من خلال إجراء طرح انحداري ذاتي باستخدام ذاكرة تخزين مؤقتة للمفتاح والقيمة (KV) أثناء التدريب. وتحقق هذه الاستراتيجية الإشراف من خلال دالة خسارة شاملة على مستوى الفيديو تُقيّم جودة التسلسل المُولّد بالكامل مباشرةً، بدلاً من الاعتماد فقط على دوال الهدف التقليدية لكل إطار على حدة. ولضمان كفاءة التدريب، تم اعتماد نموذج انتشار من بضع خطوات واستراتيجية اقتطاع التدرج العشوائي، مما يُوازن بفعالية بين التكلفة الحسابية والأداء. كما تم تقديم آلية ذاكرة تخزين مؤقتة للمفتاح والقيمة متدحرجة لتحقيق استقراء فيديو ذاتي الانحدار فعال. تُظهر التجارب المكثفة أن طريقتهم قادرة على توليد فيديو متدفق في الوقت الفعلي بزمن انتقال أقل من ثانية على وحدة معالجة رسومية واحدة، مع تحقيق جودة توليد تفوق جودة نماذج الانتشار غير السببية الأبطأ بكثير، أو حتى تتجاوزها. نتائج البحث ذات الصلة هي:الإجبار الذاتي: سد الفجوة بين التدريب والاختبار في انتشار الفيديو الانحداري التلقائي".
يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

وصف المعلمة
- الإعدادات المتقدمة:
- البذرة: قيمة بذرة عشوائية تتحكم في عشوائية عملية التوليد. يمكن للبذرة الثابتة إعادة إنتاج النتائج نفسها؛ يشير -1 إلى بذرة عشوائية.
- معدل الإطارات المستهدف في الثانية: معدل الإطارات المستهدف. القيمة الافتراضية هنا هي 6، مما يعني أن الفيديو المُولَّد هو 6 إطارات في الثانية.
- torch.compile: تمكين تحسين تجميع PyTorch لتسريع استنتاج النموذج (يتطلب دعم البيئة).
- التكميم FP8: يتيح التكميم العائم بـ 8 بت، مما يقلل من الدقة الحسابية لزيادة سرعة التوليد (قد يؤثر قليلاً على الجودة).
- TAEHV VAE: يحدد نوع نموذج المشفر التلقائي المتغير (VAE) المستخدم، والذي قد يؤثر على التفاصيل أو النمط الناتج.
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{huang2025selfforcing,
title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
journal={arXiv preprint arXiv:2506.08009},
year={2025}
}