VarNet: استكشاف التغيرات للتنبؤ بالفيديو غير المُعلَّم
التنبؤ بالفيديو غير المُراقب هو مهمة صعبة للغاية نظرًا لتعقيد وتنوع المشاهد الطبيعية. تعاني الطرق السابقة التي تتنبأ مباشرةً بالبكسلات أو التدفقات البصرية من مشكلة التبهم (blurring) أو تتطلب افتراضات إضافية. نسلط الضوء على أن الجوهر في تنبؤ إطارات الفيديو يكمن في التقاط التغيرات بين الإطارات بدقة، والتي تشمل حركة الكائنات وتغير البيئة المحيطة. ثم نقدّم إطارًا غير مُراقب للتنبؤ بالفيديو يُسمى شبكة التغير (Variation Network - VarNet)، الذي يتنبأ مباشرةً بالتغيرات بين الإطارات المتتالية، والتي تُدمج لاحقًا مع الإطار الحالي لإنتاج الإطار المستقبلي. بالإضافة إلى ذلك، نقترح آلية إعادة وزن تلقائية للدالة الخسارة، لتمنح كل بكسل وزنًا عادلًا وفقًا لشدة تغيره. تم إجراء تجارب واسعة على كلا النوعين من التنبؤات القصيرة الأمد والطويلة الأمد باستخدام مجموعتي بيانات متقدمتين هما KTH وKITTI، باستخدام معيارين لتقييم الأداء: PSNR وSSIM. بالنسبة لمجموعة بيانات KTH، تتفوق VarNet على أفضل الطرق الحالية بنسبة تصل إلى 11.9% في PSNR و9.5% في SSIM. أما بالنسبة لـ KITTI، فإن تحسينات الأداء تصل إلى 55.1% في PSNR و15.9% في SSIM. علاوة على ذلك، نتحقق من قدرة نموذجنا على التعميم، حيث تفوق الطرق الأخرى ذات المستوى الرائد عند اختباره على مجموعة بيانات CalTech Pedestrian غير المرئية بعد تدريبه على مجموعة KITTI. يمكن الوصول إلى الشفرة المصدرية والفيديوهات من خلال الرابط التالي: https://github.com/jinbeibei/VarNet.