إعادة النظر في HVS: إطار شامل لتقييم جودة الفيديو

جودة الفيديو تمثل قلقًا رئيسيًا بالنسبة لموّردي خدمات الفيديو. في السنوات الأخيرة، تطورت بسرعة تقنيات تقييم جودة الفيديو (VQA) القائمة على الشبكات العصبية التلافيفية العميقة (CNNs). وعلى الرغم من المحاولات السابقة لدمج معرفة النظام البصري البشري (HVS) في تقييم جودة الفيديو، تظل هناك قيود تمنع الاستفادة الكاملة من هذا النظام، بما في ذلك نموذج غير كامل يعتمد على عدد محدود من الخصائص، بالإضافة إلى ارتباطات غير كافية بين هذه الخصائص. لتجاوز هذه القيود، يعيد هذا البحث النظر في النظام البصري البشري من خلال خمس خصائص ممثلة، ويُعيد تنظيم الارتباطات بينها بشكل محسّن. بناءً على هذا النموذج المُعاد تقييمه للنظام البصري البشري، تم اقتراح إطار عمل جديد لقياس جودة الفيديو دون مرجع (NRVQA) يُسمى HVS-5M (إطار عمل VQA بدون مرجع يحتوي على خمسة وحدات تمثل خمس خصائص للنظام البصري البشري). يعمل هذا الإطار ضمن نموذج دمج المجالات، باستخدام هياكل شبكة متقدمة. من ناحية المجال المكاني، تستخدم وحدة التمييز البصري (السالينسي) شبكة SAMNet للحصول على خريطة التمييز البصري. ثم تستخدم وحدتا الاعتماد المحتوي والقناع الحافة على التوالي شبكة ConvNeXt لاستخراج السمات المكانية، والتي يتم ترجيحها بعناية باستخدام خريطة التمييز البصري، بهدف التأكيد على المناطق التي قد تجذب انتباه الإنسان. من ناحية المجال الزمني، لتعويض السمات المكانية الثابتة، تستخدم وحدة إدراك الحركة شبكة SlowFast لاستخراج السمات الزمنية الديناميكية. بالإضافة إلى ذلك، تستخدم وحدة التأخير الزمني (الهستيريس) شبكة TempHyst لمحاكاة آلية الذاكرة البشرية، وتقيّم بشكل شامل درجة الجودة بناءً على السمات المدمجة من المجالين المكاني والزمني. أظهرت التجارب الواسعة أن إطارات HVS-5M تتفوّق على أحدث الأساليب في تقييم جودة الفيديو. كما أُجريت دراسات تحليلية (Ablation Studies) لتأكيد فعالية كل وحدة ضمن الإطار المُقترح.