MCVD: تمايز الفيديو الشرطي المقنع للتنبؤ والإنشاء والاستيفاء

تنبؤ الفيديو يُعد مهمة صعبة. وغالبًا ما تكون جودة الإطارات الفيديو الناتجة عن النماذج التوليدية الرائدة حاليًا (SOTA) ضعيفة، كما يصعب التعميم على بيانات خارج نطاق التدريب. علاوةً على ذلك، غالبًا ما تكون الأطر الحالية للتنبؤ غير قادرة على التعامل في الوقت نفسه مع مهام فيديو أخرى مثل التوليد غير المشروط أو التداخل. في هذا العمل، نُقدّم إطارًا عامًا يُسمى "الانسجام المشروط المُقنَّع للتمييز الفيديو" (MCVD)، المصمَّم لجميع مهام التوليد الفيديو باستخدام نموذج تمايز تقليل الضوضاء القائم على الاحتمالات الشرطية، المشروط بالإطارات السابقة و/أو المستقبلية. نُدرّب النموذج بطريقة يتم فيها تغطية إطارات سابقة أو مستقبلية عشوائيًا وبشكل مستقل. يُتيح هذا الإعداد الجديد ولكن البسيط تدريب نموذج واحد قادر على تنفيذ طيف واسع من مهام الفيديو، وتحديدًا: التنبؤ بالمستقبل/الماضي — عندما يتم تغطية إطارات المستقبل/الماضي فقط؛ التوليد غير المشروط — عندما يتم تغطية كل من الإطارات السابقة والمستقبلية؛ والتداخل — عندما لا يتم تغطية أي من الإطارات السابقة أو المستقبلية. تُظهر تجاربنا أن هذا النهج يمكنه إنتاج إطارات عالية الجودة لفئات متنوعة من الفيديوهات. تم بناء نماذج MCVD لدينا من خلال هياكل بسيطة غير متكررة (non-recurrent) من التحويلات الثنائية الأبعاد (2D-convolutional)، مع التكيّف على كتل من الإطارات وإنتاج كتل من الإطارات. نُولِّد مقاطع فيديو بأطوال متغيرة بشكل تلقائي (autoregressively) بطريقة كتلية. يُحقِّق هذا النهج أداءً رائدًا (SOTA) في معايير التنبؤ بالفيديو والتداخل القياسية، مع أوقات حسابية للتدريب تتراوح بين 1 إلى 12 يومًا باستخدام 4 وحدات معالجة رسومية كحد أقصى ($\le$ 4 GPUs). صفحة المشروع: https://mask-cond-video-diffusion.github.io ; الكود: https://github.com/voletiv/mcvd-pytorch