MEMC-Net: شبكة عصبية مُشَغَّلة بتقدير الحركة ومعالجة الحركة لاستيفاء وإذكاء الإطارات في الفيديو

تمتاز تقنيتا تقدير الحركة (ME) وتعويض الحركة (MC) بكونهما المحركين الرئيسيين لنظم تداخل الإطارات المرئية التقليدية على مدى عقود. في الآونة الأخيرة، أسست الشبكات العصبية التلافيفية (CNN) نموذجًا جديدًا يعتمد على البيانات لحل مشكلة تداخل الإطارات. ومع ذلك، تُظهر الطرق القائمة على التعلم الحالية عادةً تقييدًا في تقدير أحد مكوني ME أو MC فقط، مما يؤدي إلى أداء محدود من حيث الكفاءة الحسابية ودقة التداخل. في هذا العمل، نقترح شبكة عصبية مُشَغَّلة بمحركات تقدير الحركة وتعويض الحركة (MEMC) لحل مشكلة تداخل الإطارات المرئية. ونُقدِّم طبقة تشويه مُعدَّلة (adaptive warping layer) جديدة تدمج بين تدفق البصريات (optical flow) ونوى التداخل (interpolation kernels) لتركيب بكسلات الإطار الهدف. وتتميز هذه الطبقة بأنها قابلة للتفاضل بالكامل، مما يسمح بتحديث الشبكتين المسؤولة عن تقدير التدفق وتقدير النوى بشكل مشترك. تُستفيد طريقة العمل من البنية المدعومة بنموذج ME وMC، مع تجنُّب التصميم اليدوي التقليدي من خلال التدريب على كميات كبيرة من البيانات المرئية. مقارنةً بالطرق الحالية، تتميز طريقتنا بكفاءة حسابية عالية وقدرة على إنتاج نتائج مرئية أكثر جاذبية. علاوةً على ذلك، يُعدّ معمارية MEMC إطارًا عامًا يمكن تكييفه بسلاسة مع عدة مهام تحسين الفيديو، مثل التكبير العالي (super-resolution)، إزالة الضوضاء (denoising)، وإزالة التشويش (deblocking). تُظهر التقييمات الكمية والكيفية الواسعة أداءً متميزًا مقارنةً بأفضل الطرق الحالية في تداخل الإطارات وتحسين الفيديو على مجموعة واسعة من مجموعات البيانات.