تحسين التحويل الفائق للفيديو من خلال التوافق القائم على إعادة العينة الضمنية

في معالجة تكبير الفيديو (video super-resolution)، من الشائع استخدام تطابق إطار ب إطار (frame-wise alignment) لدعم انتقال المعلومات عبر الزمن. وقد تم دراسة دور التطابق بشكل مفصل في تحسين المهام منخفضة المستوى في الفيديو، لكن الدراسات الحالية تتجاهل خطوة حرجة — إعادة العينة (resampling). نُظهر من خلال تجارب واسعة أن لكي يكون التطابق فعّالاً، يجب أن تُحتفظ بإسقاط الترددات الأساسية للإطار المرجعي أثناء تقليل التشوهات المكانية. ومع ذلك، تستخدم معظم الدراسات الحالية بشكل افتراضي التداخل الخطي (bilinear interpolation) لإعادة العينة، رغم أن هذا الأسلوب له تأثير مُسَمِّي (smoothing effect) الذي يعيق عملية التكبير. استناداً إلى هذه الملاحظات، نقترح طريقة جديدة تعتمد على إعادة عينة ضمنية (implicit resampling-based alignment). حيث يتم ترميز مواقع العينة باستخدام ترميز مكاني جيبي (sinusoidal positional encoding)، بينما تُقدّر القيم باستخدام شبكة إحداثيات (coordinate network) وانتباه متقاطع مبني على نافذة (window-based cross-attention). نُظهر أن التداخل الخطي يُقلل تلقائياً من المعلومات ذات التردد العالي، في حين أن الشبكة القائمة على MLP (MLP-based coordinate network) قادرة على تقريب ترددات أكثر. أظهرت التجارب على مجموعات بيانات اصطناعية وواقعية أن التطابق باستخدام إعادة العينة الضمنية المُقترحة يُحسّن أداء الأطر الحالية المتطورة بأقل تأثير على حسابات المعالجة وعدد المعلمات.