تقييم جودة الفيديوهات في البيئة الطبيعية

تقييم جودة الفيديوهات في البيئة الحقيقية هو مشكلة صعبة بسبب غياب مقاطع الفيديو المرجعية والتشوهات الناجمة عن التصوير. يمكن أن يساعد فهم نظام الرؤية البشري في إنشاء طرق لتقييم الجودة بشكل موضوعي للفيديوهات في البيئة الحقيقية. في هذا العمل، نوضح كيف يمكن استخدام تأثيرين بارزين لنظام الرؤية البشري، وهما اعتمادية المحتوى وتأثير الذاكرة الزمنية، لهذا الغرض. نقترح طريقة تقييم جودة الفيديو الموضوعية بدون مرجع من خلال دمج كلا التأثيرين في شبكة عصبية عميقة. بالنسبة لاعتمادية المحتوى، نستخرج الخصائص من شبكة عصبية مُدربة مسبقًا للتصنيف الصوري لمعرفتها الطبيعية بالمحتوى. أما بالنسبة لتأثير الذاكرة الزمنية، فقد تم دمج الاعتمادات طويلة الأجل، وخاصة اللزوجة الزمنية (temporal hysteresis)، في الشبكة باستخدام وحدة متكررة ذات بوابات (gated recurrent unit) وطبقة تجميع زمني مستوحاة من الآراء الذاتية (subjectively-inspired temporal pooling layer). لتأكيد أداء طرحتنا، أجريت تجارب على ثلاث قواعد بيانات متاحة للجمهور لتقييم جودة الفيديو في البيئة الحقيقية: KoNViD-1k وCVD2014 وLIVE-Qualcomm. أظهرت نتائج التجارب أن طرحتنا تتفوق بكفاءة كبيرة على خمس طرق رائدة أخرى، حيث حققت تحسينات شاملة بنسبة 12.39% و15.71% و15.45% و18.09% على الطريقة الثانية الأفضل VBLIINDS، من حيث معامل الارتباط التتابعي (SROCC) ومعامل الارتباط التتابعي كندل (KROCC) ومعامل الارتباط الخطي (PLCC) ومتوسط الخطأ التربيعي (RMSE)، على التوالي. بالإضافة إلى ذلك، أكدت دراسة الاستبعاد الدور الحاسم لكل من الخصائص المعتمدة على المحتوى وتوفير نموذج للذاكرة الزمنية. تم إطلاق تنفيذ PyTorch لطريقتنا على الرابط https://github.com/lidq92/VSFA.