HyperAIHyperAI
منذ 2 أشهر

تعلم متغير ترانسفورمر مدرك لمسارات الحركة لتحسين دقة الفيديو

Chengxu Liu; Huan Yang; Jianlong Fu; Xueming Qian
تعلم متغير ترانسفورمر مدرك لمسارات الحركة لتحسين دقة الفيديو
الملخص

تهدف تقنية زيادة دقة الفيديو (VSR) إلى استعادة سلسلة من الإطارات ذات الدقة العالية (HR) من نظيراتها ذات الدقة المنخفضة (LR). رغم التقدم المحرز في هذا المجال، لا تزال هناك تحديات كبيرة في الاستفادة بشكل فعال من الارتباط الزمني في سلاسل الفيديو بأكملها. عادةً ما تقوم النماذج الحالية بالتوافق والتجميع بين إطارات الفيديو من مجموعة محدودة من الإطارات المجاورة (مثل 5 أو 7 إطارات)، مما يمنع هذه النماذج من تحقيق نتائج مرضية. في هذا البحث، نخطو خطوة أبعد لتمكين التعلم الزماني-المكاني الفعال في الفيديوهات. نقترح محولًا جديدًا يعتمد على المسارات لزيادة دقة الفيديو (TTVSR). بصفة خاصة، نقوم بتحويل إطارات الفيديو إلى عدة مسارات مسبقًا تم توحيدها، والتي تتكون من رموز بصرية متصلة. بالنسبة لرمز الاستفسار، يتم تعلم الانتباه الذاتي فقط على الرموز البصرية ذات الصلة طول المسارات الزمانية-المكانية. بالمقارنة مع المحولات البصرية التقليدية، يقلل هذا التصميم بشكل كبير من تكلفة الحساب ويتيح للمحولات نمذجة الخصائص البعيدة المدى. كما اقترحنا أيضًا وحدة توكنيز الميزات عبر الأطر للتعامل مع مشاكل تغيير المقياس التي تحدث غالبًا في الفيديوهات طويلة المدى. تظهر النتائج التجريبية تفوق المحول المقترح TTVSR على أفضل النماذج الحالية، وذلك من خلال تقييمات كمية وكيفية شاملة في أربع مقاييس شائعة لزيادة دقة الفيديو. يمكن تنزيل الكود والنماذج المدربة مسبقًا من الرابط التالي: https://github.com/researchmm/TTVSR.

تعلم متغير ترانسفورمر مدرك لمسارات الحركة لتحسين دقة الفيديو | أحدث الأوراق البحثية | HyperAI