مُحَوِّل التكبير الفيديو مع الانتباه المُقنَّع بين الإطارات وفي داخلها

في الآونة الأخيرة، حققت نماذج التحويل البصري (Vision Transformer) نجاحًا كبيرًا في استعادة التفاصيل المفقودة في التسلسلات منخفضة الدقة، أي في مهمة تحسين دقة الفيديو (Video Super-Resolution - VSR). وعلى الرغم من تفوقها في دقة VSR، إلا أن الحمل الحسابي الكبير وحجم الذاكرة الكبير الذي تتطلبه نماذج VSR القائمة على التحويل البصري يعيق تطبيقها على الأجهزة ذات الموارد المحدودة. في هذا البحث، نعالج هذه المشكلة من خلال اقتراح إطار عمل جديد للمعالجة على مستوى الميزات يعتمد على التحويل المُقنَّع: VSR مع انتباه مُقنَّع داخلي وداخلي بين الإطارات (MIA-VSR). تكمن الفكرة الأساسية في MIA-VSR في الاستفادة من الاستمرارية الزمنية على مستوى الميزات بين الإطارات المجاورة لتقليل العمليات الحسابية الزائدة، وتحسين استخدام الميزات المحسّنة سابقًا في تحسين الدقة. بشكل محدد، نقترح كتلة انتباه داخلية وداخلية بين الإطارات، تأخذ بعين الاعتبار أدوار الميزات السابقة والميزات المدخلة، وتعتمد فقط على الميزات المحسّنة سابقًا لتوفير معلومات داعمة. علاوةً على ذلك، تم تطوير وحدة تنبؤ تلقائية بخرائط مُقنَّعة على مستوى الكتل، تُستخدم لتجاوز العمليات غير الضرورية بناءً على درجة التشابه بين الميزات في الإطارات المجاورة. قمنا بدراسات تحليلية مفصلة لتأكيد مساهماتنا، وقارنا الطريقة المقترحة مع أحدث الطرق المتميزة في مجال VSR. أظهرت النتائج التجريبية أن MIA-VSR تحسن كفاءة الذاكرة والحساب مقارنة بالطرق المتميزة الحالية، دون التضحية بدقة PSNR. يمكن الوصول إلى الشفرة المصدرية عبر الرابط التالي: https://github.com/LabShuHangGU/MIA-VSR.