DisCoVQA: نماذج التحويل الزمني-المحتوى للتحصيل النوعي للفيديو

تُعد العلاقات الزمنية بين الإطارات وتأثيراتها على تقييم جودة الفيديو (VQA) موضوعًا لا يزال يُدرس بشكل محدود في الدراسات الحالية. تؤدي هذه العلاقات إلى نوعين مهمين من التأثيرات بالنسبة لجودة الفيديو. أولاً، تُسبب بعض التغيرات الزمنية (مثل الاهتزاز، الوميض، والانتقالات المفاجئة بين المشاهد) تشوهات زمنية تؤدي إلى تدهور إضافي في الجودة، بينما لا تؤدي بعض التغيرات الأخرى (مثل تلك المرتبطة بأحداث ذات معنى) إلى مثل هذه التأثيرات. ثانيًا، يُظهر الجهاز البصري البشري غالبًا اهتمامًا مختلفًا بالإطارات التي تختلف في محتواها، مما يؤدي إلى تباين في أهميتها بالنسبة للجودة الشاملة للفيديو. بالاعتماد على القدرة المتميزة للنماذج القائمة على المحولات (Transformers) في نمذجة السلاسل الزمنية، نقترح طريقة جديدة وفعّالة لتقدير جودة الفيديو تعتمد على المحولات (VQA) لمعالجة هذين المشكلين. لتمييز التغيرات الزمنية بشكل أفضل وبالتالي التقاط التشوهات الزمنية، نصمم وحدة استخلاص التشوه المكاني-الزمني القائمة على المحولات (STDE). ولمعالجة انتباه الجودة الزمنية، نقترح نموذج المحولات الزمنية من نوع المشفر-الفكك (TCT). كما نُدخل أيضًا تقنية أخذ العينات الزمنية على الميزات لتقليل طول المدخلات المقدمة إلى وحدة TCT، بهدف تحسين كفاءة التعلم وفعاليته. يتكوّن النموذج المقترح، المسمى "محولات التشوه-المحتوى الزمنية لتقييم جودة الفيديو (DisCoVQA)"، من وحدة STDE ووحدة TCT، ويحقق أداءً متقدمًا على عدة معايير تقييم جودة الفيديو دون الحاجة إلى مجموعات بيانات تدريب مسبقة إضافية، ويتفوق على الطرق الحالية بنسبة تصل إلى 10% في قدرة التعميم. كما أجرينا تجارب تحليلية واسعة لتأكيد فعالية كل جزء في النموذج المقترح، وقمنا بتقديم تصورات بصرية تُثبت أن الوحدات المقترحة تحقق الهدف المطلوب في نمذجة هذه القضايا الزمنية. وسوف نُعلن لاحقًا عن نشر الشفرة البرمجية والأوزان المُدرّبة مسبقًا.