HyperAIHyperAI
منذ 11 أيام

كونفيكت: مُقدِّر جودة الفيديو التبايني

Pavan C. Madhusudana, Neil Birkbeck, Yilin Wang, Balu Adsumilli, Alan C. Bovik
كونفيكت: مُقدِّر جودة الفيديو التبايني
الملخص

تقييم جودة الفيديو الاحتمالي (VQA) يُعد عنصراً أساسياً في العديد من منصات البث والمشاركة في الفيديو. في هذا العمل، نتناول مشكلة تعلم تمثيلات جودة الفيديو ذات صلة بالاستشعار بشكل ذاتي (self-supervised). ونستخدم تحديد نوع التشوه وتحديد مستوى التدهور كمهمة مساعدة لتدريب نموذج تعليم عميق يتضمن شبكة عصبية متعددة الطبقات (CNN) لاستخراج الميزات المكانية، بالإضافة إلى وحدة تكرارية (recurrent unit) لالتقاط المعلومات الزمنية. يتم تدريب النموذج باستخدام دالة خسارة تباينية (contrastive loss)، ولهذا نشير إلى إطار التدريب والنموذج الناتج باسم CONtrastive VIdeo Quality EstimaTor (CONVIQT). أثناء الاختبار، يتم تجميد أوزان النموذج المدرب، ويُستخدم مُعامل انحدار خطي لتحويل الميزات المُتعلمة إلى درجات جودة في بيئة بدون مرجع (NR). قمنا بتقييم شامل للنموذج المقترح على قواعد بيانات متعددة لـ VQA من خلال تحليل الارتباط بين التنبؤات الناتجة عن النموذج والدرجات الحقيقية للجودة، وحققنا أداءً تنافسياً مقارنةً بالنماذج المتقدمة حديثاً في مجال تقييم جودة الفيديو بدون مرجع (NR-VQA)، حتى وإن لم يكن النموذج مدرباً على تلك القواعد. تُظهر تجارب التحليل (ablation experiments) أن التمثيلات المُتعلمة تكون قوية جداً وتعمل بشكل جيد في التعميم على التشوهات الصناعية والواقعية. تشير نتائجنا إلى إمكانية الحصول على تمثيلات قوية ذات دلالة استشعارية باستخدام التعلم الذاتي. تم إتاحة تنفيذ الأدوات المستخدمة في هذا العمل عبر الرابط التالي: https://github.com/pavancm/CONVIQT.

كونفيكت: مُقدِّر جودة الفيديو التبايني | أحدث الأوراق البحثية | HyperAI