التعرف على التعبيرات الوجهية باستخدام الانتباه الشبكي والمحول البصري
أحرزت تقنية التعرف على التعبيرات الوجهية (FER) تقدماً ملحوظاً بفضل استخدام الشبكات العصبية التلافيفية (CNN). ومع ذلك، تعتمد هذه الشبكات على الخصائص المكانية المحلية للمرشحات التلافيفية، مما يجعلها غير قادرة على تعلم التحيّزات الاستنتاجية طويلة المدى بين مناطق الوجه المختلفة في معظم الطبقات العصبية. وبسبب ذلك، تظل أداء النماذج المستندة إلى CNN في مهام التعرف على التعبيرات الوجهية محدوداً. ولحل هذه المشكلة، تقدم هذه الورقة إطاراً جديداً لتقنية FER يعتمد على آلية انتباه مزدوجة مصممة لتطبيقات النماذج القائمة على CNN، حيث تُستخدم كل آلية انتباه لغرض مختلف: الأولى في تعلم الميزات منخفضة المستوى، والثانية في تمثيل المعاني عالية المستوى. وبالتحديد، في مرحلة تعلم الميزات منخفضة المستوى، تم اقتراح آلية انتباه على شكل شبكة (grid-wise attention) لالتقاط الاعتماديات بين المناطق المختلفة في صورة التعبير الوجهي، بهدف تقوية عملية تحديث المعلمات الخاصة بمرشحات التلافيف في هذه المرحلة. أما في مرحلة التمثيل المعنوي عالي المستوى، فتُستخدم آلية انتباه قائمة على نموذج التحويل البصري (visual transformer attention)، والتي تعتمد على تسلسل من الرموز المعنوية البصرية (التي تُولَّد من ميزات الهرمية الناتجة عن كتل الطبقات التلافيفية العالية) لاستخلاص تمثيل عالمي شامل. وقد أُجريت تجارب واسعة على ثلاث مجموعات بيانات عامة للتعرف على التعبيرات الوجهية، هي: CK+، وFER+، وRAF-DB. وأظهرت النتائج أن نموذجنا FER-VT حقق أداءً من الدرجة الأولى (state-of-the-art) على هذه المجموعات، وبخاصة تحقيق دقة 100٪ على مجموعة بيانات CK+ دون الحاجة إلى بيانات تدريب إضافية.