PieAPP: تقييم الخطأ البصري في الصور من خلال التفضيل الثنائي

قدرة تقدير الخطأ الإدراكي بين الصور هي مشكلة مهمة في رؤية الحاسوب لها العديد من التطبيقات. رغم أن هذه المشكلة قد تم دراستها بشكل مكثف، إلا أنه لا توجد حتى الآن أي طريقة قادرة على التنبؤ بالاختلافات البصرية بطريقة موثوقة مثل البشر. استخدمت بعض الطرق السابقة نماذج مبرمجة يدويًا، لكنها فشلت في نمذجة تعقيد الجهاز البصري للإنسان. بينما استخدمت طرق أخرى التعلم الآلي لتدريب النماذج على مجموعات بيانات تم تصنيفها من قبل البشر، لكن إنشاء مجموعات بيانات كبيرة وعالية الجودة يعد صعبًا لأن الأشخاص غير قادرين على تعيين علامات خطأ متسقة للصور المشوهة. في هذا البحث، نقدم طريقة جديدة قائمة على التعلم وهي الأولى التي تتنبأ بالخطأ الإدراكي للصورة مثل المراقبين البشريين. بما أن من السهل بكثير على الأشخاص مقارنة صورتين معطوفتين وتحديد أيهما أكثر تشابهًا مع صورة المرجعية بدلاً من تعيين درجات جودة لكل صورة، فقد اقترحنا مجموعة بيانات جديدة ومقياسية كبيرة تم تصنيفها باحتمال أن يفضل البشر صورة واحدة على الأخرى. ثم قمنا بتدريب نموذج التعلم العميق باستخدام إطار عمل جديد للتعلم الثنائي لتنبؤه بتفوق صورة مشوهة واحدة على الأخرى. الملاحظة الرئيسية لدينا هي أن شبكتنا المدربة يمكن استخدامها بشكل مستقل مع صورة مشوهة واحدة فقط وصورة مرجعية لتنبؤ خطئها الإدراكي دون أن يتم تدريبها أبدًا على علامات الخطأ الإدراكي البشري الصريح. الخطأ الإدراكي الذي يتم تقديره بواسطة مؤشرنا الجديد PieAPP (Perceptual Image Error Assessment through Pairwise Preference) يرتبط بشكل جيد مع آراء البشر. بالإضافة إلى ذلك، فإنه يتفوق بشكل كبير على الخوارزميات الموجودة حاليًا، حيث يتفوق بنسبة حوالي 3 أضعاف على مجموعة اختبارنا من حيث معدل الخطأ الثنائي، كما أنه يتعمم إلى أنواع جديدة من التشوهات، وهو ما لم تستطع الطرق القائمة على التعلم السابق تحقيقه.