نموذج جديد للتعرف على المشاعر الوجهية باستخدام بنية التجزئة VGG-19
لقد اكتسبت التعرف على المشاعر الوجهية (FER) شعبية كبيرة في السنوات الأخيرة بفضل تطبيقاتها المتعددة، بما في ذلك التعرف البيومتري، وكشف الأمراض النفسية، وفهم السلوك البشري، والتحليل النفسي. ومع ذلك، لا يزال تطوير نموذج دقيق وموثوق لـ FER يشكل تحديًا كبيرًا، نظرًا لعوامل متعددة تجعل من الصعب التعميم بين مختلف المشاعر. ومن بين العوامل التي تعرقل تطوير نموذج FER ناجح: التغيرات في الوضعية (pose variation)، والتنوع الهيكلي للوجه، والإضاءة، والانسداد (occlusion)، والدقة المنخفضة (low resolution)، والعوامل المرتبطة بالشيخوخة. تم تطوير العديد من الأساليب لتجاوز هذه المشكلات، مثل خوارزميتي Histogram of Oriented Gradients (HOG) وHistogram of Local Binary Pattern (LBP). ومع ذلك، تتطلب هذه الأساليب اختيار الميزات يدويًا. أما الشبكات العصبية التلافيفية (CNN)، فقد تغلبت على هذه المشكلة، حيث أظهرت إمكانات كبيرة في مهام FER بفضل استراتيجيتها الفريدة لاستخراج الميزات مقارنة بالنماذج التقليدية لـ FER. في هذا البحث، نقترح معمارية CNN جديدة من خلال دمج طبقات تجزئة U-Net بين طبقات مجموعة VGG، بهدف تمكين الشبكة من التركيز على الميزات الأكثر أهمية من خريطة الميزات، كما تتحكم هذه البنية في تدفق المعلومات الزائدة عبر طبقات VGG. وتمكنت نماذجنا من تحقيق أداءً متقدمًا (SOTA) على مستوى الدقة في شبكة واحدة مقارنةً بنماذج FER المعروفة الأخرى على مجموعة بيانات FER-2013.