إعادة التفكير في التوافق في نماذج التحويل للتكبير الفيديو

يُعتبر توحيد الإطارات المجاورة عملية أساسية في تحسين دقة الفيديو (VSR). عادةً ما تكون النماذج المتقدمة لتحسين دقة الفيديو، بما في ذلك أحدث نماذج VSR المبنية على المحولات (Transformers)، مزودة بوحدات توحيد مصممة بعناية. ومع ذلك، قد يؤدي التقدم في آلية الانتباه الذاتي (self-attention) إلى مخالفة هذا المفهوم الشائع. في هذه الورقة، نعيد التفكير في دور التوحيد في نماذج VSR المبنية على المحولات، ونقدم عدة ملاحظات غير متوقعة. تُظهر تجاربنا أن: (أ) يمكن لمحولات VSR الاستفادة مباشرة من المعلومات متعددة الإطارات من مقاطع فيديو غير مُوحَّدة، و(ب) قد تكون الطرق الحالية للتوحيد أحيانًا ضارة بأداء محولات VSR. تشير هذه الملاحظات إلى إمكانية تحسين أداء محولات VSR بشكل أكبر من خلال إزالة وحدة التوحيد واستخدام نافذة انتباه أكبر. ومع ذلك، فإن هذه التصاميم تؤدي إلى زيادة كبيرة في الحمل الحسابي، ولا تستطيع التعامل مع الحركات الكبيرة. ولذلك، نقترح طريقة توحيد جديدة وفعالة تُسمى "توحيد القطع" (patch alignment)، والتي تُوحد قطع الصور بدلاً من البكسلات. تُظهر محولات VSR المزودة بتوحيد القطع أداءً متفوقًا على عدة معايير معيارية. تقدم هذه الدراسة رؤى قيمة حول كيفية استخدام المعلومات متعددة الإطارات في VSR، وكيفية اختيار طرق التوحيد المناسبة حسب الشبكة أو مجموعة البيانات. سيتم نشر الشيفرة والنماذج على الرابط التالي: https://github.com/XPixelGroup/RethinkVSRAlignment.