HyperAIHyperAI
منذ 17 أيام

التحويلة البصرية مع تجميع مُنتِبِه للتعرف المُتماسك على تعابير الوجه

Fanglei Xue, Qiangchang Wang, Zichang Tan, Zhongsong Ma, Guodong Guo
التحويلة البصرية مع تجميع مُنتِبِه للتعرف المُتماسك على تعابير الوجه
الملخص

تمثّل عملية التعرف على التعبيرات الوجهية في البيئات الطبيعية (FER in the wild) مهمةً صعبة للغاية. في الآونة الأخيرة، تم استكشاف بعض نماذج نماذج التحويل البصري (Vision Transformers - ViT) لمعالجة هذه المهمة، لكن معظمها تُظهر أداءً أضعف مقارنةً بشبكات التعلم العميق ذات التحويلات التلافيفية (Convolutional Neural Networks - CNN). ويعود السبب الرئيسي إلى صعوبة تقارب هذه الوحدات الجديدة من الصفر، نظرًا لافتقارها إلى التحيز الاستنتاجي (inductive bias)، وسهولة تركيزها على المناطق المغطاة أو المضطربة (الضوضاء). أما طريقة TransFER، التي تُعد من الطرق المتميزة القائمة على النموذج التحويلي لمعالجة FER، فقد قلّلت من هذه المشكلة من خلال تقنية "إسقاط الانتباه متعددة الفروع"، لكنها أضافت تكاليف حسابية كبيرة. على النقيض من ذلك، نقدّم وحدتين جديدتين للاستخلاص الانتباهي (Attentive Pooling - AP)، وهما: الاستخلاص الانتباهي للقطع (Attentive Patch Pooling - APP) والاستخلاص الانتباهي للرموز (Attentive Token Pooling - ATP). تهدف هذه الوحدات إلى توجيه النموذج نحو التأكيد على الميزات الأكثر تمييزًا، وفي الوقت نفسه تقليل تأثير الميزات الأقل صلة. يتم استخدام APP لاختيار أبرز القطع المفيدة من ميزات CNN، بينما يقوم ATP بحذف الرموز غير المهمة داخل نموذج ViT. وبما أن APP وATP بسيطتان في التنفيذ ولا تحتويان على معلمات قابلة للتعلم، فإنها تقلّل بشكل مفهوم من التكلفة الحسابية، وتحسّن الأداء من خلال التركيز فقط على الميزات الأكثر تمييزًا. وتدل النتائج النوعية على دوافع وفعالية الاستخلاصات الانتباهية المقدمة. علاوةً على ذلك، تتفوّق النتائج الكمية على ستة مجموعات بيانات حقيقية (in-the-wild) على الطرق المتميزة الأخرى في مجال FER.