VideoFlow: نموذج مبني على التدفق الشرطي لتكوين الفيديو العشوائي

النماذج التوليدية التي يمكنها نمذجة وتوقع سلاسل الأحداث المستقبلية قادرة، على الأقل من حيث المبدأ، على تعلم التقاط الظواهر المعقدة في العالم الحقيقي، مثل التفاعلات الفيزيائية. ومع ذلك، فإن التحدي الرئيسي في توقع الفيديو هو أن المستقبل شديد الغموض: يمكن أن يشير سلسلة من الملاحظات السابقة للأحداث إلى العديد من السيناريوهات المستقبلية المحتملة. رغم أن العديد من الأعمال الحديثة درست النماذج الاحتمالية التي يمكنها تمثيل مستقبلات غير مؤكدة، إلا أن هذه النماذج إما تكون باهظة الثمن حسابياً كما هو الحال في النماذج الذاتية الانحدارية على مستوى البكسل (pixel-level autoregressive models)، أو لا تقوم بتحسين احتمالية البيانات بشكل مباشر. وفي حد علمنا، يعد عملنا أول من يقترح توقع الفيديو متعدد الإطارات باستخدام جريان التطبيع (normalizing flows)، مما يسمح بتحسين احتمالية البيانات بشكل مباشر ويؤدي إلى تنبؤات عشوائية ذات جودة عالية. نصفّ طريقة لنمذجة ديناميكيات الفضاء الكامن (latent space dynamics) ونثبت أن النماذج التوليدية القائمة على الجريان تقدم حلًا قابلًا للتطبيق ومتنافسًا في مجال نمذجة الفيديو التوليدية.