HyperAIHyperAI
منذ 11 أيام

العينة الممثلة للجوار لتقييم فعّال للجودة النهائية للفيديو

Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Jinwei Gu, Weisi Lin
العينة الممثلة للجوار لتقييم فعّال للجودة النهائية للفيديو
الملخص

تُشكّل الدقة المتزايدة في مقاطع الفيديو الواقعية معضلة بين الكفاءة والدقة في تقييم جودة الفيديو العميق (VQA). من جهة، فإن الحفاظ على الدقة الأصلية للصورة يؤدي إلى تكاليف حسابية غير مقبولة. ومن جهة أخرى، فإن الممارسات الحالية مثل تغيير الحجم والقص تؤدي إلى تغيير جودة مقاطع الفيديو الأصلية بسبب فقدان التفاصيل والمحتوى، مما يضر بتقييم الجودة. بالاعتماد على الرؤى المستخلصة من دراسة التكرار الفراغي-الزمني في النظام البصري البشري ونظرية الترميز البصري، لاحظنا أن معلومات الجودة في البيئة المحيطة بنقطة معينة تكون غالبًا متشابهة، مما يحفّزنا على استكشاف نموذج فعّال لتمثيل الجودة باستخدام ممثّلات مجاورة حساسة للجودة. في هذه الدراسة، نقترح نموذجًا موحدًا يُسمى "استخلاص مكعبات صغيرة مُحددة فراغيًا-زمنيًا" (St-GMS)، بهدف الحصول على نوع جديد من العينات يُسمى "القطع". تُقسّم مقاطع الفيديو بدوال كاملة إلى مكعبات صغيرة باستخدام شبكات فراغية-زمنية محددة مسبقًا، ثم يتم استخلاص ممثّلات جودة متماشية زمنيًا لتكوين القطع، والتي تُستخدم كمدخلات لنموذج تقييم جودة الفيديو. بالإضافة إلى ذلك، صممنا شبكة تُسمى "شبكة الانتباه للقطع" (FANet)، وهي بنية شبكة مصممة خصيصًا لمعالجة القطع. وباستخدام القطع وشبكة FANet، حققنا نموذجًا فعّالًا يُسمى FAST-VQA ونُسخة أسرع منه (FasterVQA) أداءً أفضل بشكل ملحوظ من الطرق الحالية على جميع معايير تقييم جودة الفيديو، مع استهلاك فقط 1/1612 من عدد العمليات الحسابية (FLOPs) مقارنة بالحالة المتطورة الحالية. يمكن الوصول إلى الشفرات البرمجية، النماذج، والتطبيقات التوضيحية عبر الرابط: https://github.com/timothyhtimothy/FAST-VQA-and-FasterVQA.

العينة الممثلة للجوار لتقييم فعّال للجودة النهائية للفيديو | أحدث الأوراق البحثية | HyperAI