ResEmoteNet: جسر بين الدقة وتخفيض الخسارة في التعرف على العواطف الوجهية

الوجه البشري هو مُرسل صامت للعواطف والأفكار من خلال تعبيراته الوجهية. بفضل التقدم الذي أحرزته رؤية الكمبيوتر في السنوات الأخيرة، حققت تقنية التعرف على العواطف الوجهية خطوات كبيرة، مما مكّن الآلات من فك شفرة تعقيدات الإشارات الوجهية. في هذا البحث، نقترح ResEmoteNet، وهي هندسة تعلم عميقة جديدة للتعرف على العواطف الوجهية تم تصميمها بدمج الشبكات التلافيفية (Convolutional)، والشبكات الضاغطة-المثيرة (Squeeze-Excitation (SE))، والشبكات المتبقية (Residual Networks). يركز إدخال كتلة SE بشكل انتقائي على الخصائص المهمة للوجه البشري، ويحسن تمثيل الخصائص ويقلل من الأقل أهمية منها. هذا يساعد في تقليل الخسارة وتحسين أداء النموذج العام. كما قمنا بدمج كتلة SE مع ثلاث كتل متبقية تساعدها في تعلم تمثيل أكثر تعقيدًا للبيانات عبر طبقات أعمق. قمنا بتقييم ResEmoteNet على أربع قواعد بيانات مفتوحة المصدر هي: FER2013، RAF-DB، AffectNet-7 و ExpW، حيث حققت دقة بنسبة 79.79٪، 94.76٪، 72.39٪ و 75.67٪ على التوالي. يتفوق الشبكة المقترحة على أفضل النماذج الحالية في جميع القواعد البيانات الأربعة. يمكن الوصول إلى الكود المصدر لـ ResEmoteNet عبر الرابط:https://github.com/ArnabKumarRoy02/ResEmoteNet.