تقييم جودة الصورة: دمج التشابه في البنية والنمط

تُطبّق المقاييس الموضوعية لجودة الصورة عادةً من خلال مقارنة البكسلات في صورة "مُتضرّرة" مع تلك الخاصة بالصورة الأصلية. وبالنسبة للمراقبين البشريين، تكون هذه المقاييس حساسة بشكل مفرط تجاه إعادة عينة مناطق النسيج (مثلاً، استبدال شريحة من العشب بشريحة أخرى). في هذه الدراسة، نطوّر أول نموذج لجودة الصورة يعتمد على المرجع الكامل، يتمتع بتحمل صريح لعمليات إعادة عينة النسيج. باستخدام شبكة عصبية تلافيفية (CNN)، نُنشئ دالة واحدة-إلى-واحد (injective) وقابلة للتفاضل، تحوّل الصور إلى تمثيلات متعددة المقياس وغير مكتملة (overcomplete). ونُظهر تجريبيًا أن المتوسطات المكانية للخرائط المميزة في هذا التمثيل تُجسّد مظهر النسيج، حيث توفر مجموعة من القيود الإحصائية الكافية لإنشاء مجموعة واسعة من الأنماط النسيجية. ثم نصف طريقة لقياس جودة الصورة تدمج ارتباطات هذه المتوسطات المكانية (تسمى "تشابه النسيج") مع ارتباطات الخرائط المميزة (تسمى "تشابه البنية"). ونُحسّن معاملات المقاييس المقترحة بشكل مشترك لتناسب تقييمات البشر لجودة الصورة، مع تقليل المسافات المبلغ عنها بين الصور الفرعية المقطوعة من نفس الصور النسيجية. تُظهر التجارب أن الطريقة المحسّنة تفسر التقييمات الحسية البشرية، سواء في قواعد بيانات جودة الصور التقليدية أو في قواعد بيانات النسيج. كما تُظهر الأداء التنافسي في مهام ذات صلة مثل تصنيف النسيج واسترجاعه. وأخيرًا، نُظهر أن طريقة العمل لدينا غير حساسة نسبيًا للتحويلات الهندسية (مثل التحويل والتوسيع)، دون الحاجة إلى تدريب مخصص أو تعزيز البيانات. يمكن الوصول إلى الكود عبر الرابط: https://github.com/dingkeyan93/DISTS.