فعالية الخصائص العميقة بشكل غير معقول كمقياس إدراكي

بينما يمكن للبشر تقريبًا تقييم التشابه الإدراكي بين صورتين بسهولة وبسرعة، يُعتقد أن العمليات الأساسية لهذا التقييم معقدة للغاية. على الرغم من ذلك، فإن أكثر المقاييس الإدراكية استخدامًا اليوم، مثل PSNR وSSIM، هي دوال بسيطة وسطحية، ولا تأخذ في الاعتبار العديد من الدقائق في الإدراك البشري. حديثًا، اكتشف مجتمع التعلم العميق أن ميزات شبكة VGG التي تم تدريبها على تصنيف ImageNet كانت مفيدة بشكل ملحوظ كخسارة تدريبية لتركيب الصور. ولكن إلى أي مدى تكون هذه الخسائر المسمّاة "الخسائر الإدراكية" إدراكية؟ وما هي العناصر الحرجة لنجاحها؟ للإجابة على هذه الأسئلة، نقدم مجموعة بيانات جديدة تتضمن أحكام البشر حول التشابه الإدراكي. نقيم بشكل منهجي الميزات العميقة عبر هياكل مختلفة ومهمات ونقارنها بالمقاييس الكلاسيكية. نجد أن الميزات العميقة تتفوق على جميع المقاييس السابقة بمargins كبيرة في مجموعتنا البيانات. وأكثر من ذلك إثارة للدهشة، فإن هذا النتيجة ليست مقتصرة على ميزات VGG التي تم تدريبها على ImageNet فحسب، بل تنطبق أيضًا على هياكل عميقة مختلفة ومستويات الرقابة (رقابة كاملة، ذاتية الرقابة، أو حتى بدون رقابة). تقترح نتائجنا أن التشابه الإدراكي هو خاصية ظاهرة مشتركة بين التمثيلات البصرية العميقة.