HyperAIHyperAI

Command Palette

Search for a command to run...

إنشاء فيديو ذاتي الإجبار في الوقت الفعلي

Date

منذ 6 أشهر

Size

128.76 MB

Paper URL

2506.08009

1. مقدمة البرنامج التعليمي

يبني

يُعدّ "التدريب الذاتي"، الذي اقترحه فريق شون هوانغ في 9 يونيو 2025، نموذجًا تدريبيًا جديدًا لنماذج انتشار الفيديو التراجعي الذاتي. يعالج هذا النموذج مشكلة التحيز في التعرض، حيث يتعين على النماذج المدربة على سياق حقيقي توليد تسلسلات بناءً على مخرجاتها غير الكاملة أثناء الاستدلال. على عكس الطرق السابقة التي تُزيل التشويش من الإطارات المستقبلية بناءً على إطارات السياق الحقيقي، يحدد "التدريب الذاتي" شروط توليد كل إطار وفقًا للمخرجات المولدة سابقًا من خلال تنفيذ عملية تراجع ذاتي مع تخزين مؤقت للقيم الرئيسية أثناء التدريب. تُشرف على هذه الاستراتيجية دالة خسارة عالمية على مستوى الفيديو تُقيّم جودة التسلسل المُولّد بالكامل مباشرةً، بدلاً من الاعتماد فقط على دالة هدف تقليدية لكل إطار على حدة. ولضمان كفاءة التدريب، يُستخدم نموذج انتشار قليل الخطوات واستراتيجية اقتطاع التدرج العشوائي، مما يُحقق توازنًا فعالًا بين التكلفة الحسابية والأداء. كما تم إدخال آلية تخزين مؤقت للقيم الرئيسية لتحقيق استقراء فعال للفيديو التراجعي الذاتي. أظهرت تجارب واسعة النطاق أن طريقتهم قادرة على توليد فيديو متدفق في الوقت الفعلي بزمن استجابة أقل من ثانية واحدة على وحدة معالجة رسومية واحدة، مع تحقيق جودة توليد تضاهي أو حتى تتجاوز جودة نماذج الانتشار الأبطأ بكثير وغير السببية. وفيما يلي نتائج الأبحاث ذات الصلة: الإجبار الذاتي: سد الفجوة بين التدريب والاختبار في انتشار الفيديو الانحداري التلقائي .

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

وصف المعلمة

  • الإعدادات المتقدمة:
    • البذرة: قيمة بذرة عشوائية تتحكم في عشوائية عملية التوليد. يمكن للبذرة الثابتة إعادة إنتاج النتائج نفسها؛ يشير -1 إلى بذرة عشوائية.
    • معدل الإطارات المستهدف في الثانية: معدل الإطارات المستهدف. القيمة الافتراضية هنا هي 6، مما يعني أن الفيديو المُولَّد هو 6 إطارات في الثانية.
    • torch.compile: تمكين تحسين تجميع PyTorch لتسريع استنتاج النموذج (يتطلب دعم البيئة).
    • التكميم FP8: يتيح التكميم العائم بـ 8 بت، مما يقلل من الدقة الحسابية لزيادة سرعة التوليد (قد يؤثر قليلاً على الجودة).
    • TAEHV VAE: يحدد نوع نموذج المشفر التلقائي المتغير (VAE) المستخدم، والذي قد يؤثر على التفاصيل أو النمط الناتج.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{huang2025selfforcing,
  title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
  author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
  journal={arXiv preprint arXiv:2506.08009},
  year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp