TOPIQ: نهج علوي يبدأ من المعاني إلى التشوهات لتقييم جودة الصورة

تقييم جودة الصور (IQA) هو مهمة أساسية في الرؤية الحاسوبية شهدت تقدماً ملحوظاً بفضل الشبكات العصبية العميقة. مستوحاة من خصائص النظام البصري البشري، تستخدم الطرق الحالية عادةً مزيجاً من التمثيلات الشاملة والمحليّة (أي الميزات متعددة المقياس) لتحقيق أداء متفوق. ومع ذلك، فإن معظم هذه الطرق تعتمد على دمج خطي بسيط للميزات متعددة المقياس، وتتجاهل العلاقات المعقدة والتفاعلات المحتملة بينها. في المقابل، يميل البشر إلى تكوين انطباع شامل أولاً لتحديد المناطق المهمة، ثم التركيز على التفاصيل المحلية في تلك المناطق. ولهذا، نقترح نهجاً من الأعلى إلى الأسفل يستخدم المعاني عالية المستوى لتوجيه شبكة تقييم جودة الصور للتركيز على مناطق التشوهات المحلية ذات الأهمية المعنوية، ونسميها \emph{TOPIQ}. يتضمن نهجنا لـ IQA تصميم شبكة تدريجية من الخشنة إلى الدقيقة (CFANet) تستخدم الميزات متعددة المقياس وتنقل تدريجياً المعلومات المعنوية متعددة المستويات إلى التمثيلات منخفضة المستوى بطريقة من الأعلى إلى الأسفل. يُعد المكون الرئيسي في نهجنا هو آلية الانتباه عبر المقياس المُقترحة، والتي تحسب خرائط الانتباه للميزات منخفضة المستوى بقيادة الميزات عالية المستوى. تعزز هذه الآلية المناطق المعنوية النشطة المتعلقة بالتشوهات منخفضة المستوى، مما يؤدي إلى تحسين الأداء. يمكن استخدام CFANet في تقييم جودة الصور بمرجع كامل (FR) وفي تقييم جودة الصور بدون مرجع (NR). نستخدم ResNet50 كهيكل أساسي (backbone) ونُظهر أن CFANet تحقق أداءً أفضل أو تنافسياً على معظم المعايير العامة FR وNR مقارنة بالطرق الحديثة القائمة على نماذج التحويل البصري (vision transformers)، مع كونها أكثر كفاءة بكثير (باستهلاك فقط ${\sim}13\%$ من عمليات العمليات الحسابية (FLOPS) مقارنة بالطريقة الأفضل حالياً في تقييم FR). تم إصدار الشفرة المصدرية على الرابط \url{https://github.com/chaofengc/IQA-PyTorch}.