HyperAIHyperAI
منذ 14 أيام

إعادة التفكير في التوافق في نماذج التحويل للتكبير الفيديو

Shuwei Shi, Jinjin Gu, Liangbin Xie, Xintao Wang, Yujiu Yang, Chao Dong
إعادة التفكير في التوافق في نماذج التحويل للتكبير الفيديو
الملخص

يُعتبر توحيد الإطارات المجاورة عملية أساسية في تحسين دقة الفيديو (VSR). عادةً ما تكون النماذج المتقدمة لتحسين دقة الفيديو، بما في ذلك أحدث نماذج VSR المبنية على المحولات (Transformers)، مزودة بوحدات توحيد مصممة بعناية. ومع ذلك، قد يؤدي التقدم في آلية الانتباه الذاتي (self-attention) إلى مخالفة هذا المفهوم الشائع. في هذه الورقة، نعيد التفكير في دور التوحيد في نماذج VSR المبنية على المحولات، ونقدم عدة ملاحظات غير متوقعة. تُظهر تجاربنا أن: (أ) يمكن لمحولات VSR الاستفادة مباشرة من المعلومات متعددة الإطارات من مقاطع فيديو غير مُوحَّدة، و(ب) قد تكون الطرق الحالية للتوحيد أحيانًا ضارة بأداء محولات VSR. تشير هذه الملاحظات إلى إمكانية تحسين أداء محولات VSR بشكل أكبر من خلال إزالة وحدة التوحيد واستخدام نافذة انتباه أكبر. ومع ذلك، فإن هذه التصاميم تؤدي إلى زيادة كبيرة في الحمل الحسابي، ولا تستطيع التعامل مع الحركات الكبيرة. ولذلك، نقترح طريقة توحيد جديدة وفعالة تُسمى "توحيد القطع" (patch alignment)، والتي تُوحد قطع الصور بدلاً من البكسلات. تُظهر محولات VSR المزودة بتوحيد القطع أداءً متفوقًا على عدة معايير معيارية. تقدم هذه الدراسة رؤى قيمة حول كيفية استخدام المعلومات متعددة الإطارات في VSR، وكيفية اختيار طرق التوحيد المناسبة حسب الشبكة أو مجموعة البيانات. سيتم نشر الشيفرة والنماذج على الرابط التالي: https://github.com/XPixelGroup/RethinkVSRAlignment.

إعادة التفكير في التوافق في نماذج التحويل للتكبير الفيديو | أحدث الأوراق البحثية | HyperAI