التعلم المحلي باستخدام الخصائص العميقة واليدوية لتمييز التعبيرات الوجهية

نقدم نهجًا يجمع بين الخصائص التلقائية التي تتعلمها شبكات العصبونات المتكررة (CNN) والخصائص المعدة يدويًا التي يتم حسابها بواسطة نموذج كيس الكلمات البصرية (BOVW) من أجل تحقيق نتائج رائدة في مجال التعرف على تعبيرات الوجه. للحصول على الخصائص التلقائية، نجري تجارب باستخدام العديد من هياكل شبكات العصبونات المتكررة (CNN)، النماذج المدربة مسبقًا وإجراءات التدريب، مثل الإجراء الكثيف-النادر-الكثيف (Dense-Sarse-Dense). بعد دمج نوعي الخصائص، نستخدم إطار تعلم محلي لتنبؤ تصنيف كل صورة اختبار. يعتمد الإطار المحلي للتعلم على ثلاث خطوات. أولاً، يتم تطبيق نموذج جيران k الأقرب لاختيار العينات التدريبية الأقرب لصورة الاختبار المدخلة. ثانياً، يتم تدريب تصنيف خطي واحد مقابل الكل (SVM) على العينات التدريبية المختارة. أخيراً، يتم استخدام تصنيف SVM لتنبؤ تصنيف الصورة الاختبار التي تم تدريبه عليها فقط. رغم أننا استخدمنا التعلم المحلي مع الخصائص المعدة يدويًا في أعمالنا السابقة، إلا أنه حسب علمنا لم يتم استخدام التعلم المحلي مطلقًا مع الخصائص العميقة. تظهر التجارب التي أجريت على مجموعة بيانات تحدي التعرف على تعبيرات الوجه عام 2013 (FER 2013)، ومجموعة بيانات FER+، ومجموعة بيانات AffectNet أن نهجنا يحقق نتائج رائدة. حيث حققنا أعلى دقة بلغت 75.42% على FER 2013، و87.76% على FER+، و59.58% على تصنيف AffectNet الثماني الطرق، و63.31% على تصنيف AffectNet السبعي الطرق، مما يجعلنا نتفوق على الأساليب الرائدة بنسبة أكثر من 1% في جميع مجموعات البيانات.