ReLaX-VQA: استخراج الكسر المتبقي وطيات التراكيب لتحسين تقييم جودة الفيديو

مع النمو السريع للمحتوى الذي يُولده المستخدمون (UGC) المتبادَل بين المستخدمين و منصات المشاركة، أصبحت الحاجة إلى تقييم جودة الفيديو في البيئات الحقيقية واضحة بشكل متزايد. يتم الحصول على UGC عادة باستخدام أجهزة المستهلك ويمر بجولات متعددة من الضغط (التحويل) قبل الوصول إلى المستخدم النهائي. لذلك، لا تكون مقاييس الجودة التقليدية التي تعتمد على المحتوى الأصلي كمرجع مناسبة. في هذا البحث، نقترح نموذج ReLaX-VQA، وهو نموذج جديد لتقييم جودة الفيديو دون مرجع (NR-VQA) يهدف إلى معالجة التحديات المرتبطة بتقييم جودة محتوى الفيديو المتنوع دون الرجوع إلى مقاطع الفيديو الأصلية غير المضغوقة. يستخدم ReLaX-VQA فروق الإطارات لاختيار شظايا زمانية-مكانية بذكاء مع تعبيرات مختلفة للخصائص المكانية المرتبطة بالإطارات المشتقة. يتم استخدام هذه الخصائص بعد ذلك لتقدير التباينات المكانية والزمانية في جودة الإطارات المجاورة بشكل أفضل. بالإضافة إلى ذلك، يعزز النموذج التجريد عن طريق استخدام تقنيات تراكم الطبقات في خصائص الشبكات العصبية العميقة من شبكات الباقي (Residual Networks) ومتغيرات الرؤية (Vision Transformers). أظهر اختبار مكثف عبر أربعة مجموعات بيانات لمحتوى المستخدمين أن ReLaX-VQA يتفوق باستمرار على طرق NR-VQA الموجودة، حيث حقق معدل ترتيب ارتباط سبيرمان (SRCC) بمتوسط قدره 0.8658 ومعدل الارتباط الخطي المنتظم (PLCC) بمتوسط قدره 0.8873. يمكن العثور على الكود المصدر والموديلات المدربة التي ستُسهل البحث التطبيقي والتطبيقات المستقبلية لـ NR-VQA على الرابط https://github.com/xinyiW915/ReLaX-VQA.