التاريخ

منذ 6 أشهر

الحجم

128.76 MB

الوسوم

نص إلى فيديو

توليد الفيديو

GitHub

guandeh17/Self-Forcing

رابط الورقة البحثية

2506.08009

1. مقدمة البرنامج التعليمي

يُعدّ "التدريب الذاتي"، الذي اقترحه فريق شون هوانغ في 9 يونيو 2025، نموذجًا تدريبيًا جديدًا لنماذج انتشار الفيديو التراجعي الذاتي. يعالج هذا النموذج مشكلة التحيز في التعرض، حيث يتعين على النماذج المدربة على سياق حقيقي توليد تسلسلات بناءً على مخرجاتها غير الكاملة أثناء الاستدلال. على عكس الطرق السابقة التي تُزيل التشويش من الإطارات المستقبلية بناءً على إطارات السياق الحقيقي، يحدد "التدريب الذاتي" شروط توليد كل إطار وفقًا للمخرجات المولدة سابقًا من خلال تنفيذ عملية تراجع ذاتي مع تخزين مؤقت للقيم الرئيسية أثناء التدريب. تُشرف على هذه الاستراتيجية دالة خسارة عالمية على مستوى الفيديو تُقيّم جودة التسلسل المُولّد بالكامل مباشرةً، بدلاً من الاعتماد فقط على دالة هدف تقليدية لكل إطار على حدة. ولضمان كفاءة التدريب، يُستخدم نموذج انتشار قليل الخطوات واستراتيجية اقتطاع التدرج العشوائي، مما يُحقق توازنًا فعالًا بين التكلفة الحسابية والأداء. كما تم إدخال آلية تخزين مؤقت للقيم الرئيسية لتحقيق استقراء فعال للفيديو التراجعي الذاتي. أظهرت تجارب واسعة النطاق أن طريقتهم قادرة على توليد فيديو متدفق في الوقت الفعلي بزمن استجابة أقل من ثانية واحدة على وحدة معالجة رسومية واحدة، مع تحقيق جودة توليد تضاهي أو حتى تتجاوز جودة نماذج الانتشار الأبطأ بكثير وغير السببية. وفيما يلي نتائج الأبحاث ذات الصلة: الإجبار الذاتي: سد الفجوة بين التدريب والاختبار في انتشار الفيديو الانحداري التلقائي .

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

وصف المعلمة

الإعدادات المتقدمة:
- البذرة: قيمة بذرة عشوائية تتحكم في عشوائية عملية التوليد. يمكن للبذرة الثابتة إعادة إنتاج النتائج نفسها؛ يشير -1 إلى بذرة عشوائية.
- معدل الإطارات المستهدف في الثانية: معدل الإطارات المستهدف. القيمة الافتراضية هنا هي 6، مما يعني أن الفيديو المُولَّد هو 6 إطارات في الثانية.
- torch.compile: تمكين تحسين تجميع PyTorch لتسريع استنتاج النموذج (يتطلب دعم البيئة).
- التكميم FP8: يتيح التكميم العائم بـ 8 بت، مما يقلل من الدقة الحسابية لزيادة سرعة التوليد (قد يؤثر قليلاً على الجودة).
- TAEHV VAE: يحدد نوع نموذج المشفر التلقائي المتغير (VAE) المستخدم، والذي قد يؤثر على التفاصيل أو النمط الناتج.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{huang2025selfforcing,
  title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
  author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
  journal={arXiv preprint arXiv:2506.08009},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

Command Palette

إنشاء فيديو ذاتي الإجبار في الوقت الفعلي

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إنشاء فيديو ذاتي الإجبار في الوقت الفعلي

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SAM3: نموذج التجزئة المرئية

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إنشاء فيديو ذاتي الإجبار في الوقت الفعلي

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SAM3: نموذج التجزئة المرئية

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SAM3: نموذج التجزئة المرئية

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

ذات صلة دفاتر تفاعلية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SAM3: نموذج التجزئة المرئية

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط