في بحث عن نموذج قوي لتمييز التعبيرات الوجهية: دراسة بصرية واسعة النطاق عبر مجموعات بيانات مختلفة
على مدار العقدين الماضيين، كان العديد من الباحثين يسعى إلى تطوير نظام موثوق للتعرف على المشاعر. وسوف يُحدث هذا التقدم تطورًا كبيرًا في أنظمة الحاسوب، من خلال تقديم تغذية راجعة أكثر طبيعية أثناء التفاعل بين الإنسان والحاسوب، وذلك بفضل تحليل الحالة العاطفية للمستخدم. ومع ذلك، يظل أحد المشكلات الأساسية في هذا المجال هو ضعف قدرة النموذج على التعميم: حيث نلاحظ تدهورًا كبيرًا في أداء النموذج عندما يتم تدريبه على مجموعة بيانات واحدة وتجريبه على مجموعة أخرى. وعلى الرغم من إجراء بعض الدراسات في هذا الاتجاه، ما زال المجال البصري غير كافٍ في الدراسة. ولذلك، نقدم دراسة متقاطعة بين المجموعات البصرية باستخدام ثمانية مجموعات بيانات، تختلف في ظروف التسجيل، وخصائص مظهر المشاركين، وصعوبة معالجة البيانات. ونُقدّم إطارًا مبنيًا على الرؤية ويعمل بشكل كامل (end-to-end) للتعرف على المشاعر، يتكون من نموذج أساسي مُدرّب مسبقًا ومقاوم، بالإضافة إلى نظام زمني لنموذج الاعتماد الزمني عبر عدد كبير من الإطارات الفيديو. كما نقدم تحليلًا مفصلًا لأخطاء النموذج الأساسي ومزاياه، مما يُظهر قدرته العالية على التعميم. وتُظهر نتائجنا أن النموذج الأساسي حقق دقة قدرها 66.4% على مجموعة بيانات AffectNet، متفوقًا على جميع النتائج الرائدة في هذا المجال. علاوةً على ذلك، أظهر نموذج CNN-LSTM كفاءة جيدة في مجموعات البيانات البصرية الديناميكية خلال التجارب المتقاطعة بين المجموعات، وحقق نتائج مماثلة للنتائج الرائدة. وبالمزيد من ذلك، نوفر للباحثين المستقبليين النموذج الأساسي ونموذج CNN-LSTM، ويمكن الوصول إليهما عبر منصة GitHub.