HyperAIHyperAI

Command Palette

Search for a command to run...

احتفظ بارتباطك الخاص: سابقة ضوضاء لنماذج التمايز الفيديوي

Songwei Ge Seungjun Nah Guilin Liu Tyler Poon Andrew Tao Bryan Catanzaro David Jacobs Jia-Bin Huang Ming-Yu Liu Yogesh Balaji

الملخص

على الرغم من التقدم الكبير المحرز في إنتاج صور عالية الجودة باستخدام النماذج الانتشارية، لا يزال توليد تسلسل من الإطارات المتحركة التي تكون مُصوّرة بشكل واقعي وتمتاز بالتلاحم الزمني في مراحله الأولى من التطور. بينما تتوفر حالياً مجموعات بيانات ضخمة بحجم بيليونات للصور، لا يزال جمع بيانات فيديو مماثلة بذات الحجم تحدياً كبيراً. بالإضافة إلى ذلك، فإن تدريب نموذج انتشار فيديو يتطلب موارد حسابية بكثير أكثر من نموذج الانتشار للصور. في هذا العمل، نستكشف تحسين نموذج انتشار صور مُدرّب مسبقاً باستخدام بيانات فيديو كحل عملي لمهام توليد الفيديو. وجدنا أن التوسع العشوائي لبُعد الضوضاء للصور إلى بُعد ضوضاء للفيديوهات يؤدي إلى أداء غير مثالي. أما بُعد الضوضاء للفيديوهات المصمّم بدقة، فيؤدي إلى أداء مُتفوّق بشكل كبير. أظهرت التحقق التجريبي الواسع أن نموذجنا، Preserve Your Own Correlation (PYoCo)، يحقق أفضل النتائج (SOTA) في المهمة الصفرية (zero-shot) لتحويل النص إلى فيديو على معايير UCF-101 وMSR-VTT. كما يحقق أفضل جودة في توليد الفيديو على معيار UCF-101 الصغير، باستخدام نموذج أصغر بعشر مرات، وباستهلاك حسابي أقل بكثير مقارنة بالحلول السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp