Command Palette
Search for a command to run...
احتفظ بارتباطك الخاص: سابقة ضوضاء لنماذج التمايز الفيديوي
احتفظ بارتباطك الخاص: سابقة ضوضاء لنماذج التمايز الفيديوي
Songwei Ge Seungjun Nah Guilin Liu Tyler Poon Andrew Tao Bryan Catanzaro David Jacobs Jia-Bin Huang Ming-Yu Liu Yogesh Balaji
الملخص
على الرغم من التقدم الكبير المحرز في إنتاج صور عالية الجودة باستخدام النماذج الانتشارية، لا يزال توليد تسلسل من الإطارات المتحركة التي تكون مُصوّرة بشكل واقعي وتمتاز بالتلاحم الزمني في مراحله الأولى من التطور. بينما تتوفر حالياً مجموعات بيانات ضخمة بحجم بيليونات للصور، لا يزال جمع بيانات فيديو مماثلة بذات الحجم تحدياً كبيراً. بالإضافة إلى ذلك، فإن تدريب نموذج انتشار فيديو يتطلب موارد حسابية بكثير أكثر من نموذج الانتشار للصور. في هذا العمل، نستكشف تحسين نموذج انتشار صور مُدرّب مسبقاً باستخدام بيانات فيديو كحل عملي لمهام توليد الفيديو. وجدنا أن التوسع العشوائي لبُعد الضوضاء للصور إلى بُعد ضوضاء للفيديوهات يؤدي إلى أداء غير مثالي. أما بُعد الضوضاء للفيديوهات المصمّم بدقة، فيؤدي إلى أداء مُتفوّق بشكل كبير. أظهرت التحقق التجريبي الواسع أن نموذجنا، Preserve Your Own Correlation (PYoCo)، يحقق أفضل النتائج (SOTA) في المهمة الصفرية (zero-shot) لتحويل النص إلى فيديو على معايير UCF-101 وMSR-VTT. كما يحقق أفضل جودة في توليد الفيديو على معيار UCF-101 الصغير، باستخدام نموذج أصغر بعشر مرات، وباستهلاك حسابي أقل بكثير مقارنة بالحلول السابقة.