التوقع الفعال للجمال باستخدام الخصائص المجمعة فضائياً على مستويات متعددة

نقترح نهجًا فعالًا يستند إلى التعلم العميق لتقييم جودة الجماليات، ونطبقه على مجموعة بيانات AVA، وهي أكبر قاعدة بيانات للجماليات حاليًا. بينما تفوت النماذج السابقة بعض المعلومات في الصور الأصلية بسبب أخذ قطع صغيرة أو تقليل حجم أو تشويه الأصليات أثناء التدريب، نقترح أول طريقة تدعم بكفاءة الصور ذات الدقة الكاملة كمدخل، ويمكن تدريبها على أحجام مدخل متغيرة. هذا يسمح لنا بتحسين كبير على الحالة الراهنة، حيث نزيد معامل ارتباط الرتبة سبيرمان (SRCC) لدرجات الرأي المتوسطة (MOS) من القيم المبلغ عنها سابقًا والبالغة 0.612 إلى 0.756. لتحقيق هذه الأداء، نستخرج خصائص متعددة المستويات مشكّلة فضائيًا (MLSP) من جميع كتل الشبكات التلافيفية المدربة مسبقًا في شبكة InceptionResNet-v2 المدربة مسبقًا، ونقوم بتدريب هندسة شبكة عصبية تلافيفية (CNN) ضحلة مخصصة على هذه الخصائص الجديدة.