احتفظ بارتباطك الخاص: سابقة ضوضاء لنماذج التمايز الفيديوي

على الرغم من التقدم الكبير المحرز في إنتاج صور عالية الجودة باستخدام النماذج الانتشارية، لا يزال توليد تسلسل من الإطارات المتحركة التي تكون مُصوّرة بشكل واقعي وتمتاز بالتلاحم الزمني في مراحله الأولى من التطور. بينما تتوفر حالياً مجموعات بيانات ضخمة بحجم بيليونات للصور، لا يزال جمع بيانات فيديو مماثلة بذات الحجم تحدياً كبيراً. بالإضافة إلى ذلك، فإن تدريب نموذج انتشار فيديو يتطلب موارد حسابية بكثير أكثر من نموذج الانتشار للصور. في هذا العمل، نستكشف تحسين نموذج انتشار صور مُدرّب مسبقاً باستخدام بيانات فيديو كحل عملي لمهام توليد الفيديو. وجدنا أن التوسع العشوائي لبُعد الضوضاء للصور إلى بُعد ضوضاء للفيديوهات يؤدي إلى أداء غير مثالي. أما بُعد الضوضاء للفيديوهات المصمّم بدقة، فيؤدي إلى أداء مُتفوّق بشكل كبير. أظهرت التحقق التجريبي الواسع أن نموذجنا، Preserve Your Own Correlation (PYoCo)، يحقق أفضل النتائج (SOTA) في المهمة الصفرية (zero-shot) لتحويل النص إلى فيديو على معايير UCF-101 وMSR-VTT. كما يحقق أفضل جودة في توليد الفيديو على معيار UCF-101 الصغير، باستخدام نموذج أصغر بعشر مرات، وباستهلاك حسابي أقل بكثير مقارنة بالحلول السابقة.