التوافق المُحسَّن للارتباط القائم على تداخل الإطارات الفيديو

نُقدّم إطارًا جديدًا يستند إلى الشبكات العصبية العميقة (DNN) يُسمّى "شبكة التداخل الإطاري للفيديوهات القائمة على مطابقة الارتباط المُحسّنة" (Enhanced Correlation Matching based Video Frame Interpolation Network)، والذي يدعم دقة عالية مثل 4K، ويُعَالِج مشكلات الحركة الواسعة النطاق والاختفاء (الإغلاق). وباعتبار التوسّع الممكن للنموذج حسب الدقة، يعتمد الاقتراح على بنية هرمية متكررة (recurrent pyramid architecture) تُشترَك فيها المعاملات بين طبقات الهرم المختلفة لتقدير تدفق البصري (optical flow). في تقدير التدفق المُقترح، يتم تحسين التدفقات البصرية بشكل تكراري من خلال تتبع المواقع ذات أعلى قيمة ارتباط. كما أن مطابقة الارتباط القائمة على التحويل الأمامي (forward warping based correlation matching) تُسهم في تحسين دقة تحديث التدفق من خلال استبعاد الميزات المُحوَّلة بشكل خاطئ في المناطق المحيطة بالمناطق المُختَفية. وباستخدام التدفقات الثنائية الاتجاه (bi-directional flows) النهائية، يتم تصنيع الإطار المتوسط في أي موقع زمني باستخدام شبكة تحويل وتداخل (warping and blending network)، وتُحسَّن النتيجة النهائية من خلال شبكة تحسين إضافية. تُظهر نتائج التجارب أن الاقتراح يتفوّق على الطرق السابقة عند استخدام بيانات فيديو بدقة 4K، وكذلك على مجموعات بيانات معيارية منخفضة الدقة من حيث الجودة الموضوعية والذاتية، مع أقل عدد من المعاملات النموذجية.