التحفيز المُجَرَّد: توليد فيديو تدفقي فعّال من خلال التقطيع المطابق للتوزيع المُحَفَّز
التحفيز المُجَرَّد: توليد فيديو تدفقي فعّال من خلال التقطيع المطابق للتوزيع المُحَفَّز

الملخص
يُعدّ إنشاء مقاطع الفيديو التدفقيّة بكفاءة أمراً بالغ الأهمية لمحاكاة العوالم التفاعلية والديناميكية. تُقلّل الطرق الحالية من نماذج تشتت الفيديو التي تعتمد على عدد قليل من الخطوات، باستخدام انتباه النافذة المتحركة، مع استخدام الإطارات الابتدائية كـ"أطر مُستهلكة" (sink tokens) للحفاظ على أداء الانتباه وتقليل تراكم الأخطاء. ومع ذلك، تصبح إطارات الفيديو مُتَعَلِّقة بشكل مفرط بتلك الأطر الثابتة، ما يؤدي إلى تكرار الإطارات الابتدائية وتراجع ديناميكية الحركة. ولحل هذه المشكلة، نقدّم إطاراً جديداً يُسمى "الإجبار بالميزة" (Reward Forcing)، يتميز بتصميمين رئيسيين. أولاً، نقترح "EMA-Sink"، الذي يُحافظ على أطر ثابتة الحجم مُعدّة من الإطارات الابتدائية، وتحديثها باستمرار من خلال دمج الأطر المُزالة عبر متوسط متحرك أسّي (exponential moving average) عند مغادرتها النافذة المتحركة. وبلا تكلفة حسابية إضافية، تُمكّن أطر EMA-Sink من التقاط السياق الطويل الأمد والديناميات الحديثة مع منع تكرار الإطارات الابتدائية، وتحافظ في الوقت نفسه على اتساق النطاق الطويل. ثانيًا، لتحسين عملية استخلاص ديناميات الحركة من النماذج المُعلّمة (teacher models)، نقترح طريقة جديدة تُسمى "تَوْزِيع المطابقة المُكافَأة" (Rewarded Distribution Matching Distillation - Re-DMD). فبينما تُعامل المطابقة الاعتيادية للترابط التوزيعي كل عينة تدريبية بالتساوي، مما يحد من قدرة النموذج على التمييز بين المحتوى الديناميكي، فإن Re-DMD تُحيّز توزيع إخراج النموذج نحو المناطق ذات المكافأة العالية، وذلك من خلال إعطاء أولوية للعينات التي تم تصنيفها بأنها أكثر ديناميكية بواسطة نموذج متعدد الوسائط البصرية واللغوية (vision-language model). وقد أظهرت Re-DMD تحسناً كبيراً في جودة الحركة مع الحفاظ على دقة البيانات. وتشمل التجارب التي أجريناها كلاً من التقييمات الكمية والكيفية، لتُظهر أن إطار Reward Forcing يحقق أفضل الأداء على المعايير القياسية، مع تمكين إنشاء مقاطع فيديو تدفقيّة عالية الجودة بسرعة 23.1 إطارًا في الثانية باستخدام وحدة معالجة واحدة من نوع H100.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.