HyperAIHyperAI
منذ 17 أيام

تعلم نموذج Vision Transformer باستخدام تقنية Squeeze and Excitation لتمييز التعبيرات الوجهية

Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma, Renaud Seguier
تعلم نموذج Vision Transformer باستخدام تقنية Squeeze and Excitation لتمييز التعبيرات الوجهية
الملخص

مع توفر قواعد بيانات متعددة للتعبيرات الوجهية خلال العقود القليلة الماضية، أصبحت مهمة تمييز التعبيرات الوجهية (FER) موضوعًا يلقى اهتمامًا كبيرًا. وقد أدى التنوع في مصادر قواعد البيانات المتاحة إلى ظهور تحديات متعددة في مجال تمييز الوجه. وتُعالج هذه التحديات عادةً باستخدام هياكل الشبكات العصبية التلافيفية (CNN). وعلى عكس نماذج CNN، ظهر مؤخرًا نموذج "Transformer" مبني على آلية الانتباه، ويُستخدم لمعالجة المهام البصرية. ومع ذلك، يُعد أحد التحديات الرئيسية المتعلقة بـ"Transformer" الحاجة إلى كميات كبيرة من البيانات لتدريب النموذج، بينما تكون قواعد البيانات المستخدمة في مهمة FER محدودة مقارنةً بتطبيقات الرؤية الحاسوبية الأخرى. ولذلك، نقترح في هذا البحث تعلم نموذج "Transformer" بصري جنبًا إلى جنب مع وحدة "الضغط والتمكين" (SE) لتحسين أداء مهمة تمييز التعبيرات الوجهية. وقد تم تقييم الطريقة المقترحة على عدة قواعد بيانات FER متاحة للعامة، منها CK+ وJAFFE وRAF-DB وSFEW. وتبين النتائج التجريبية أن النموذج المقترح يتفوق على أحدث الأساليب في قاعدة البيانات CK+ وSFEW، ويحقق نتائج تنافسية على قواعد JAFFE وRAF-DB.

تعلم نموذج Vision Transformer باستخدام تقنية Squeeze and Excitation لتمييز التعبيرات الوجهية | أحدث الأوراق البحثية | HyperAI