HyperAIHyperAI
منذ 8 أيام

مُحَوِّل الفيديو الكامن

Ruslan Rakhimov, Denis Volkhonskiy, Alexey Artemov, Denis Zorin, Evgeny Burnaev
مُحَوِّل الفيديو الكامن
الملخص

يمكن صياغة مهمة إنشاء الفيديو على أنها تنبؤ بالإطارات المستقبلية بناءً على بعض الإطارات السابقة. تواجه النماذج التوليدية الحديثة للفيديو مشكلة متطلبات الحوسبة العالية. حيث تتطلب بعض النماذج ما يصل إلى 512 وحدة معالجة تنسورية (Tensor Processing Units) للتدريب المتوازٍ. وفي هذا العمل، نعالج هذه المشكلة من خلال نمذجة الديناميات في فضاء مخفي (Latent Space). وبعد تحويل الإطارات إلى الفضاء المخفي، تتنبأ نموذجنا بتمثيل المخفي للإطارات التالية بطريقة توليدية ذاتية (Autoregressive). ونُظهر أداءً مُرضيًا لنهجنا على مجموعتي بيانات BAIR Robot Pushing وKinetics-600. ويُظهر هذا النهج تقليل المتطلبات إلى 8 وحدات معالجة رسومية (Graphical Processing Units) للتدريب على النماذج، مع الحفاظ على جودة توليد مماثلة.

مُحَوِّل الفيديو الكامن | أحدث الأوراق البحثية | HyperAI