HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم متغير ترانسفورمر مدرك لمسارات الحركة لتحسين دقة الفيديو

Chengxu Liu Huan Yang Jianlong Fu Xueming Qian

الملخص

تهدف تقنية زيادة دقة الفيديو (VSR) إلى استعادة سلسلة من الإطارات ذات الدقة العالية (HR) من نظيراتها ذات الدقة المنخفضة (LR). رغم التقدم المحرز في هذا المجال، لا تزال هناك تحديات كبيرة في الاستفادة بشكل فعال من الارتباط الزمني في سلاسل الفيديو بأكملها. عادةً ما تقوم النماذج الحالية بالتوافق والتجميع بين إطارات الفيديو من مجموعة محدودة من الإطارات المجاورة (مثل 5 أو 7 إطارات)، مما يمنع هذه النماذج من تحقيق نتائج مرضية. في هذا البحث، نخطو خطوة أبعد لتمكين التعلم الزماني-المكاني الفعال في الفيديوهات. نقترح محولًا جديدًا يعتمد على المسارات لزيادة دقة الفيديو (TTVSR). بصفة خاصة، نقوم بتحويل إطارات الفيديو إلى عدة مسارات مسبقًا تم توحيدها، والتي تتكون من رموز بصرية متصلة. بالنسبة لرمز الاستفسار، يتم تعلم الانتباه الذاتي فقط على الرموز البصرية ذات الصلة طول المسارات الزمانية-المكانية. بالمقارنة مع المحولات البصرية التقليدية، يقلل هذا التصميم بشكل كبير من تكلفة الحساب ويتيح للمحولات نمذجة الخصائص البعيدة المدى. كما اقترحنا أيضًا وحدة توكنيز الميزات عبر الأطر للتعامل مع مشاكل تغيير المقياس التي تحدث غالبًا في الفيديوهات طويلة المدى. تظهر النتائج التجريبية تفوق المحول المقترح TTVSR على أفضل النماذج الحالية، وذلك من خلال تقييمات كمية وكيفية شاملة في أربع مقاييس شائعة لزيادة دقة الفيديو. يمكن تنزيل الكود والنماذج المدربة مسبقًا من الرابط التالي: https://github.com/researchmm/TTVSR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp