Command Palette
Search for a command to run...
Self-Forcing++: نحو توليد فيديو عالي الجودة بمقاييس دقيقة
Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

الملخص
أحدثت نماذج الانتشار ثورة في إنشاء الصور والفيديوهات، حيث تحققت جودة بصرية غير مسبوقة. ومع ذلك، فإن اعتمادها على الهياكل المعمارية للـ Transformers يفرض تكاليف حسابية باهظة، خاصة عند تمديد عملية الإنشاء للفيديوهات الطويلة. وقد استكشفت الدراسات الحديثة صيغة توليد ذاتية الارتباط (autoregressive) للفيديوهات الطويلة، وغالبًا ما يتم ذلك من خلال عملية استخلاص (distilling) من نماذج معلمة ثنائية الاتجاه ذات مدى قصير. غير أن نظرًا لأن النماذج المعلمة لا تستطيع إنتاج فيديوهات طويلة، فإن التمديد الذي يُطبّق على النماذج الدراسية خارج نطاق تدريبها يؤدي غالبًا إلى تدهور ملحوظ في الجودة، نتيجة تراكم الأخطاء داخل الفضاء اللاصلي المستمر. في هذا البحث، نقترح منهجًا بسيطًا لكنه فعّالًا لتقليل تدهور الجودة في إنشاء الفيديوهات على مدى طويل، دون الحاجة إلى إشراف من نماذج معلمة تُنتج فيديوهات طويلة أو إعادة تدريب على مجموعات بيانات فيديوهات طويلة. يرتكز منهجنا على استغلال المعرفة الغنية التي تمتلكها النماذج المعلمة، لتوجيه النموذج الدراسي من خلال مقاطع مُختارة تم استخلاصها من فيديوهات طويلة تم إنشاؤها ذاتيًا. يحافظ منهجنا على الاتساق الزمني، مع تمديد طول الفيديو حتى 20 مرة ما يتجاوز قدرة النموذج المعلّم، ويتجنب المشاكل الشائعة مثل التعرض الزائد وتراكم الأخطاء، دون الحاجة لإعادة حساب الإطارات المتداخلة كما في الطرق السابقة. عند توسيع نطاق الحوسبة، يُظهر منهجنا القدرة على إنشاء فيديوهات تصل إلى 4 دقائق و15 ثانية، أي ما يعادل 99.9% من أقصى نطاق يدعمه التضمين المكاني لنموذجنا الأساسي، وأكثر من 50 مرة أطول من نموذج المقارنة. وقد أظهرت التجارب على المعايير القياسية وعلى معيارنا المُحسّن المُقترح أن منهجنا يتفوق بشكل كبير على الطرق القائمة من حيث الدقة والاتساق الزمني. يمكن مشاهدة عروض الفيديوهات الطويلة الناتجة عن منهجنا عبر الرابط التالي: https://self-forcing-plus-plus.github.io/
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.