SimVP: أبسط ولكن أفضل للتنبؤ بالفيديو

من شبكة سي إن إن، إلى الشبكات العصبية التكرارية (RNN)، ثم إلى نموذج ViT، شهدنا تقدماً ملحوظاً في توقع الفيديو، من خلال دمج مدخلات إضافية، وبنية عصبية معقدة، واستراتيجيات تدريب متقدمة. نحن نُقدّر هذه التطورات، لكننا نشعر بالارتباك بشأن ضرورتها: هل هناك طريقة بسيطة يمكنها تحقيق أداءً مماثلاً؟ تُقدّم هذه الورقة نموذج SimVP، وهو نموذج بسيط لتوقع الفيديو مبني بالكامل على الشبكات العصبية التلافيفية (CNN) ويدرّب باستخدام خسارة متوسط المربعات (MSE) بطريقة نهائية (end-to-end). وبلا استخدام أي تقنيات إضافية أو استراتيجيات معقدة، نتمكن من تحقيق أداءً يُعدّ من أفضل الأداء على خمسة مجموعات بيانات معيارية. من خلال تجارب موسعة، نُظهر أن SimVP يتمتع بقدرة قوية على التعميم والقابلية للتوسيع على مجموعات بيانات واقعية. كما أن التقليل الكبير في تكاليف التدريب يجعل من السهل توسيع نطاقه لتطبيقات معقدة. نعتقد أن SimVP يمكن أن يُشكّل أساساً متيناً يُحفّز على تطوير مستقبلي أكثر لتقنية توقع الفيديو. يُمكن الوصول إلى الكود عبر الرابط التالي: \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github}.