نماذج التباعد للتنبؤ بالفيديو وإكماله

التنبؤ بالنتائج المستقبلية أو الاستنتاج حول المعلومات المفقودة في تسلسل ما يُعد مهارة حاسمة للوكالات لاتخاذ قرارات ذكية. ويتطلب هذا قدرات توليدية قوية ومتماسكة زمنيًا. وقد أظهرت نماذج الانتشار نجاحًا ملحوظًا في عدة مهام توليدية، لكنها لم تُستكشف بشكل واسع في مجال الفيديو. نقدم نموذج "الانتشار العشوائي للإطار المُقنّع في الفيديو" (RaMViD)، الذي يوسع نماذج الانتشار الصورية إلى الفيديو باستخدام التحويلات الثلاثية الأبعاد، ويُقدّم تقنية تكييف جديدة أثناء التدريب. وباستخدام أقنعة مختلفة للتكيف، يمكن للنموذج إجراء التنبؤ بالفيديو، وملء الفجوات، ورفع الدقة. وبفضل مخطط التكييف البسيط لدينا، يمكننا استخدام نفس البنية المعمارية المستخدمة في التدريب غير المشروط، ما يمكّننا من تدريب النموذج بطريقة مشروطة وغير مشروطة في آنٍ واحد. وقد قمنا بتقييم RaMViD على مجموعتين من البيانات القياسية للتنبؤ بالفيديو، حيث حققنا نتائج رائدة في المجال، وأيضًا على مجموعة بيانات واحدة للإنتاج الفيديوي. يمكن الاطلاع على مقاطع فيديو عالية الدقة عبر الموقع الإلكتروني: https://sites.google.com/view/video-diffusion-prediction.